終于搞懂如何用Java去除HTML標(biāo)簽了

大家好，我是指北君。

創(chuàng)新互聯(lián)建站服務(wù)項(xiàng)目包括花溪網(wǎng)站建設(shè)、花溪網(wǎng)站制作、花溪網(wǎng)頁制作以及花溪網(wǎng)絡(luò)營銷策劃等。多年來，我們專注于互聯(lián)網(wǎng)行業(yè)，利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等，向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案，花溪網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟(jì)效益。目前，我們服務(wù)的客戶以成都為中心已經(jīng)輻射到花溪省份的部分城市，未來相信會繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任！

在我平時(shí)的工作中，偶爾會用 Java 做一些解析HTML的工作。有的時(shí)候我需要?jiǎng)h除所有的HTML標(biāo)簽，只保留純文字內(nèi)容。這個(gè)問題在做過一些爬蟲工作的朋友來說很簡單。下面來說說，我們平時(shí)使用到的集中解析的方法。

使用正則表達(dá)式

通過爬蟲爬到的HTML內(nèi)容，從程序角度來講，就是一個(gè)字符串。我們可以對其按照純文本處理的方式來處理。

我們在做文本處理的時(shí)候，第一個(gè)想到的就是正則表達(dá)式。從一個(gè)字符串中刪除HTML，對于正則來說，還是比較簡單的。畢竟還是有固定的格式，比如“<...>”。

我們常用的的正則就是 <[^>]>? 或者 <.*?> 。

我們在使用正則的時(shí)候，需要注意的是正則默認(rèn)是貪婪匹配。也就是說，正則表達(dá)式 <.*> 能夠匹配到更多的HTML內(nèi)容，而不是單個(gè)標(biāo)簽。

現(xiàn)在，讓我們測試一下它是否能從HTML源中刪除標(biāo)簽。

正則測試刪除標(biāo)簽1

在我們測試刪除HTML標(biāo)簽之前，首先讓我們創(chuàng)建一個(gè)HTML例子，例如example1.html。




    這是標(biāo)題


    
        如果應(yīng)用程序X沒有啟動，可能的原因是

        1. Maven沒有安裝

        2. 磁盤空間不足

        3. 內(nèi)存不足

現(xiàn)在，讓我們寫一個(gè)測試，用String.replaceAll()來刪除HTML標(biāo)簽。

String html = ... // load example1.html
String result = html.replaceAll("<[^>]`>", "");
System.out.println(result);

如果我們運(yùn)行這個(gè)測試方法，我們會看到結(jié)果。

這是標(biāo)題



        如果應(yīng)用程序X沒有啟動，可能的原因是
        1.Maven沒有安裝
        2.磁盤空間不足
        3.沒有足夠的內(nèi)存

輸出結(jié)果保留了剝離后的HTML的空白處。我們在處理提取的文本時(shí)，可以很容易地刪除或跳過這些空行或空白處。

正則測試刪除標(biāo)簽2

我們剛才已經(jīng)看到了，通過使用Regex來刪除HTML標(biāo)簽是非常簡單。但是粗暴的使用這種方法會有很多問題，我們不能預(yù)測最終的結(jié)果會是怎么樣的。

例如，一個(gè)HTML文檔可能有

如果應(yīng)用程序X沒有啟動，可能的原因是

1. id="link"
href="http://maven.apache.org/">
Maven
沒有安裝

2. 磁盤空間不足 (<1G)

3. 內(nèi)存不足(<64MB)

現(xiàn)在我們有一個(gè)

av激情亚洲男人的天堂国语,日韩欧美精品一中文字幕,无码av一区二区三区无码,国产又色又爽又刺激的a片,国产又色又爽又刺激的a片

終于搞懂如何用Java去除HTML標(biāo)簽了

使用正則表達(dá)式

正則測試刪除標(biāo)簽1

正則測試刪除標(biāo)簽2