《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于機器學習的網頁正文提取方法
基于機器學習的網頁正文提取方法
來源:微型機與應用2010年第12期
安增文, 王 超, 徐杰鋒
(中國石油大學(華東) 計算機與通信工程學院 計算機科學與技術系,山東 東營257000)
摘要: 先將網頁轉換為規范的DOM樹,然后計算每行文本的文本密度、與標題相關度等值,并將其作為輸入參數利用BP神經網絡進行訓練,進而形成抽取規則,最后通過實驗驗證該方法的可行性。
Abstract:
Key words :

摘  要: 先將網頁轉換為規范的DOM樹,然后計算每行文本的文本密度、與標題相關度等值,并將其作為輸入參數利用BP神經網絡進行訓練,進而形成抽取規則,最后通過實驗驗證該方法的可行性。
關鍵詞: 信息提取神經網絡; 統計學習

    隨著互聯網的普及,網絡成為人們獲取信息的重要途徑。而互聯網上的信息量也與日俱增,網頁上的內容除了主題內容外,通常都會在頁面中放置導航條以方便用戶訪問,還有如廣告、版權信息、歡迎信息等與主題無關的內容,我們稱之為"噪音"。怎樣去除這些噪音,將網頁中的正文內容提取出來,從而提高人們的閱讀效率,這在垂直搜索和數據挖掘方面具有重要意義。在這個領域已經發表了很多的研究成果,這些研究成果從不同的角度入手,有的只利用網頁本身的特征,有的還與其他技術相結合,使網頁正文抽取的準確性和完整性得到不斷提高,但還沒有一種方法能達到人們期望的程度,還需要不斷地研究和探索。
1正文抽取相關研究
    到目前為止,已經發表的網頁正文內容抽取方法有很多種,其分類方式的依據也不盡相同,下面介紹幾種較為常用的抽取方法。
    (1) 基于模板的方法
    這種技術依賴HTML文檔的內部結構特征來完成數據抽取,需要使用wrapper(包裝器)來抽取網頁中的正文內容。包裝器可以通過分析網頁源代碼來手工編寫,也可以通過程序自動或半自動的實現。手工編寫的方法一般都針對特定的網頁模式,其優點是實現簡單、準確率高,缺點是對于不同的網頁模式或網頁結構發生變化時需要重新編寫包裝器,如果包裝器類型很多,包裝器的維護代價會很大,但由于該方法的準確性較高,所以在針對特定網站的抽取中應用很廣。自動或半自動地生成包裝器的方法在一定程度上減輕了維護包裝器的工作量,但是需要樣本學習,對用戶要求較高。
    (2) 基于統計的方法
    這種方法從頁面的不同角度分析它的統計特征,采用統計學的算法抽取正文。例如根據統計的文字數量、鏈接數量、標簽字符數量等計算出文本密度、鏈接密度等,并通過這些值來判斷哪些為正文文本、哪些為噪音內容。參考文獻[1]提出一種通過分析頁面文本密度進行正文抽取的方法。這種方法實現簡單,并且不需要編寫包裝器,但提取的準確率有限,有時會將與正文無關的版權聲明等當作正文內容提取出來。
    (3) 基于神經網絡的方法
    由于神經網絡具有優越的非線性處理能力和泛化能力,因此在很多實際領域中都取得了傳統符號學習機制難以獲得的效果。文獻[2]搜索結點的輸入連接權,通過找出權值之和超過閾值的連接權子集來抽取規則。參考文獻[3]利用多層網絡度量輸入之間的接近程度,并利用單層抑制性網絡度量輸入、輸出相關度,從而獲得抽取規則。
    參考文獻[4]針對新聞類網頁及類似布局的頁面,在對頁面文本密度進行統計之后對文本密度與頁面標題、正文之間的對應關系進行分析,以對傳網絡(CPN)為工具,對文本密度在標題、正文等語義塊中的分布模式進行擬合,從而達到抽取目標信息的目的。
    參考文獻[5]中以行為單位對網頁源代碼中的每一行計算其相關的六個屬性,并以此作為BP神經網絡的輸入參數進行學習。由于該算法未對文本內容和標題的相關度進行判斷,所以導致會將一些網站的版權聲明當作正文內容錯誤地提取出來。所以通過計算文本內容和標題的相關度來區別是否為噪音是合理的。本方法以行為單位對DOM樹進行處理,將每行的文本密度、文本內容與標題的相關度作為輸入參數利用BP神經網絡進行訓練,從而提高信息抽取的準確度。
2 算法描述
2.1 BP神經網絡模型

    BP算法屬于Delta學習規則,是一種有教師的學習算法,是以網絡誤差平方和為目標函數,按梯度法(gradient approaches)求其目標函數達到最小值的算法。一個典型的BP神經網絡包括:(1)由一個輸入層x、一個(或多個)隱藏層y和一個輸出層o組成的三層或多層結構;(2)處理單元(圖1中的圓圈)是網絡的基本組成部分,輸入層的處理單元只是將輸入值轉入相鄰的聯接權重,隱層和輸出層的處理單元將它們的輸入值求和并根據傳遞函數計算輸出值;(3)聯接權重(如圖1中v,w)將神經網絡中的處理單元聯系起來,其值隨各處理單元的連接程度而變化;(4)閾值,其值可為恒值或可變值,它可使網絡能更自由地獲取所要描述的函數關系;(5)傳遞函數F,它是將輸入的數據轉化為輸出的處理單元,通常為非線性函數。

     輸入層和輸出層的結點個數可以根據訓練集來確定,而隱藏層的結點卻需要試驗判斷。如果隱藏層結點數過少,網絡就不能具有必要的學習能力和信息處理能力。如果隱藏層結點數過多,不僅會大大增加網絡結構的復雜性,網絡在學習過程中更易陷入局部極小值,而且會使網絡的學習速度變得很慢。
2.2 利用人工神經網絡進行正文提取
    網頁的類型大體上可以分為三類:(1)文字多圖片少的內容型網頁,如新聞網頁;(2)以圖片為主文字介紹為輔的圖片型網頁,如圖片新聞;(3)以超鏈接為主的目錄型網頁,如新浪首頁。試驗中我們以內容型網頁作為主要研究對象。
2.2.1 網頁源文件預處理
    隨著web2.0的發展,網站為了定制網頁的表現形式和提高網頁視覺效果,在源文件中加入大量Script腳本和CSS代碼。所以在抽取正文之前要對網頁源文件進行預處理,去除與正文內容不相關的噪音內容。
    首先,由于html語言書寫的隨意性,導致有些網頁源代碼的不規范,例如標簽對缺失、嵌套不準確等。所以要將缺失的html標簽補齊、修改不正確的嵌套關系,并將源代碼轉換為DOM樹的形式。本文采用HTML Tidy工具來處理網頁。
    其次,要判斷網頁源文件的編碼,否則有可能抽取到亂碼。以源文件頭中的meta里聲明的charset為準,對于編碼為GBK、gb2312等格式的網頁,都將其轉為utf8格式。
    最后,Script標簽對之間和CSS內容都與正文內容無關,要全部刪除。另外,對于<a></a>等無用的空標簽對也一并刪除。
2.2.2 神經網絡訓練過程
    (1)頁面主題的提取。<title>中的內容一般為文章標題,但現在各大網站一般采用“文章標題+網站名”的形式放在<title>標簽中,且用符號“-”或“_”連接。在此將<title>中的文字內容取出,并將“-”或“_”符號后面的文字刪除;若有多個這種符號,則將最后一個這種符號后面的文字內容刪除,剩下的文字內容作為文章標題。因為標題中的文字內容一般會在正文內容中出現,而非正文內容一般不會包含標題詞,所以可以將文本內容與文章標題的相關度作為判斷文本是否正文的一個因子。
    (2)統計各項值。以行為單位對DOM樹進行處理,依次統計每行的文本長度y和字符總長度z,用p表示該段的文本密度,則p=y/z,該行的文本內容為c。
    (3)計算相關度。分別對文章標題t和每行取出的文本內容c進行分詞,得到對應的標題詞項(t1,t2…tm)和文本詞項(c1,c2…cn),然后將每個標題詞項ti和文本詞項cj進行匹配,統計匹配次數并進行加權計算,得出其相關度,記相關度為s。為了提高相關度的準確性,本文借鑒搜索引擎中“倒排索引”的經驗,對“的”“是”等停止詞放在詞庫中進行分詞,但不對其進行相關度計算。
    采用BP神經網絡作為訓練模型,各層的激勵函數均為logsig,目標誤差設為0.05,學習率為0.2。該模型有12個輸入結點、5個隱藏層結點和一個輸出結點。其中12個輸入參數為:每行的文本長度、每行的字符總長度、每行的文本密度、每行文本內容與標題的相關度、上一行的這四個值和下一行的這四個值。具體步驟如下:
    (1)獲取訓練集并做好標記。
    (2)對網頁源文件進行預處理,生成相應的DOM樹。
    (3)從DOM樹中讀取一行文字,統計相應值,得出輸入向量和期望輸出。
    (4)輸入向量經過隱藏層結點和輸出層結點的傳遞函數得到實際輸出。
    (5)計算實際輸出向量和期望輸出向量的誤差,并計算各輸出誤差項和隱藏層結點誤差項。如果誤差在允許范圍內,則回到步驟(3),從DOM樹中讀取下一行文字繼續進行。如果誤差不在允許誤差范圍內,則根據計算出的誤差項計算出各權重的調整量,并調整權重。
    (6)返回步驟(4),繼續迭代,直到實際輸出向量和期望輸出向量的誤差滿足要求。返回步驟(3)讀取下一行內容,繼續進行學習。
    (7)標簽樹遍歷完畢,訓練結束。
    將DOM樹的各個元素偶對的相關值作為神經網絡的輸入,樣本標記結果作為輸出,通過學習算法自動生成抽取規則,對新的頁面應用抽取規則進行測試。
3 測試結果
    采用信息抽取技術中常用的查全率(R)、查準率(P)和F值三個評價指標對測試結果進行評價。查全率表示被正確抽取的信息的比例、查準率表示提取出來的正確信息的比率、F值是查全率和查準率的加權幾何平均值。用公式表示如下:P=(正確抽取出正文內容的網頁數/總網頁數)*100%,R=(抽取出完整正文內容的網頁數/正確抽取出正文內容的網頁數)*100%,在此將查全率和查準率看的同等重要,得出F=2PR/(P+R)。根據F值與1的靠近程度來判斷算法的好壞,越靠近1算法越好。
    從幾大新聞網站隨機抽取20個網頁進行人工分析和標記,按照以上方法進行訓練。為了測試抽取方法的可行性,再抽取一定量的網頁作為測試集,并利用訓練結果進行測試。測試結果如表1所示。

    在本文中通過統計DOM樹每一行的文本長度和字符長度,進而計算文本密度以及文字內容與標題的相關度,并將這些數值作為輸入參數輸入到人工神經網絡進行訓練。通過計算內容和標題的相關度可以避免將一些標簽字符較少、文字內容較多的版權聲明等內容提取出來,進而提高正文抽取的準確度。從測試結果看,該方法具有一定的可行性。下一步要尋求更好的相關度計算方法,更準確地計算正文和標題的相關度,進一步提高正文抽取的準確性。
參考文獻
[1]    ALEXJC. The easy way to extract useful text from arbitrary HTML [EB/OL].http://ai-depot.com/articles/ the easy-way-to-extract-useful-text-from-arbitrary-html/. April5, 2007.
[2]     FU L M. Rule learning by searching on adapted nets. Proceedings of the 9th National Conference on Artificial  Intelligence. Anaheim, CA: AAAI Press, 1991:590-595.
[3]     SESTITO S, DILLON T. Knowledge acquisition of conjunctive rules using multilayered neural networks. International    Journal of Intelligent Systems,1993, 8(7):779-805.
[4]     陳敬文,彭哲. 基于CPN網絡的Web正文抽取技術研究[J]. 現代圖書情報技術,2008(11):65-71.
[5]     游貴榮,陸玉昌. 基于統計和機器學習的中文Web網頁正文內容抽取[J]. 福建商業高等專科學校學報,2009,4(2):68-72.
[6]     樓順天,施陽. 基于MATLAB的系統分析與設計-神經網絡[M]. 西安電子科技大學出版社, 1998.
[7]     孫承杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報, 2004,18(5):17-22.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美日韩亚洲精品内裤| 日韩视频免费在线观看| 国产综合在线视频| 亚洲欧美日韩在线综合| 亚洲欧美国产va在线影院| 亚洲欧美综合v| 欧美国产综合视频| 国产精品福利av| 国内外成人免费激情在线视频| 国产精品永久入口久久久| 夜久久久久久| 欧美色综合天天久久综合精品| 久久精品日韩欧美| 久久精品一级爱片| 国产美女在线精品免费观看| 黄色日韩网站| 国内精品嫩模av私拍在线观看| 亚洲欧美在线一区| 性欧美1819性猛交| 欧美日本免费一区二区三区| 国产午夜亚洲精品理论片色戒| 国产精品一区二区久久精品| 香港久久久电影| 亚洲国产精品久久91精品| 国产美女精品人人做人人爽| 午夜一区在线| 欧美日韩精品一区二区三区| 欧美午夜精品久久久| 亚洲黄色在线视频| 久久亚洲午夜电影| 欧美在线一级va免费观看| 国产精品日日摸夜夜摸av| 亚洲第一中文字幕在线观看| 午夜国产不卡在线观看视频| 日韩视频在线一区二区| 国产午夜精品美女视频明星a级| 亚洲精品女人| 日韩亚洲国产欧美| 中文亚洲欧美| 久久综合伊人77777麻豆| 影音先锋国产精品| 性伦欧美刺激片在线观看| 黄色av一区| 亚洲日本aⅴ片在线观看香蕉| 日韩一级大片在线| 国内精品久久久久久| 国产精品女主播在线观看| 亚洲精品一区二区三区婷婷月| 在线观看欧美日本| 亚洲欧美综合网| 欧美~级网站不卡| 免费精品99久久国产综合精品| 国产欧美日韩亚洲精品| 国产一区二区高清视频| 亚洲欧美99| 亚洲在线视频网站| 国产精品日韩欧美| 另类人畜视频在线| 亚洲国产日日夜夜| 免费不卡在线观看| 国产一区二区三区精品久久久| 99热这里只有精品8| 欧美在线一级视频| 欧美一级黄色网| 亚洲午夜极品| 欧美日韩午夜在线视频| 伊人成人在线视频| 欧美在线1区| 新片速递亚洲合集欧美合集| 亚洲国产另类久久久精品极度| 在线视频亚洲欧美| 麻豆精品在线视频| 国产精品99久久不卡二区| 亚洲视频在线观看网站| 亚洲视频1区2区| 国产日本欧洲亚洲| 一区二区三区不卡视频在线观看| 在线一区日本视频| 国产精品日韩在线观看| 尤物99国产成人精品视频| 亚洲免费高清视频| 亚洲天堂偷拍| 欧美一区二区成人6969| 亚洲精品欧美极品| 欧美日韩视频在线| 久久久久久夜| 亚洲青涩在线| 久久亚洲私人国产精品va| 亚洲午夜精品| 亚洲男人第一网站| 久久嫩草精品久久久精品| 久久精品国内一区二区三区| 久久精品国产精品亚洲| 欧美激情一区二区三区全黄| 亚洲国产欧美久久| 午夜精品在线| 欧美久久影院| 亚洲激情欧美激情| 欧美大片国产精品| 亚洲欧美在线另类| 午夜精品久久久久久久久久久久| 国产精品综合久久久| 国产婷婷色一区二区三区四区| 国内精品久久久久国产盗摄免费观看完整版| 久久久久久久一区二区| 久久久久久久999| 宅男66日本亚洲欧美视频| 日韩亚洲欧美成人| 亚洲一区二区高清视频| 性久久久久久久| 亚洲综合色丁香婷婷六月图片| 欧美激情网友自拍| 国产精品嫩草影院一区二区| 久久一日本道色综合久久| 影音国产精品| 欧美在线中文字幕| 日韩一区二区高清| 欧美日韩激情网| 久久久精品国产免大香伊| 国产一区 二区 三区一级| 午夜精品电影| 欧美一级电影久久| 亚洲一区二区3| 欧美国产视频在线| 亚洲欧美日韩一区在线观看| 国产精品午夜视频| 久久精品一区蜜桃臀影院| 农夫在线精品视频免费观看| 91久久久亚洲精品| 黑丝一区二区| 最新国产の精品合集bt伙计| 国产精品亚洲а∨天堂免在线| 国产午夜精品全部视频播放| 香蕉av777xxx色综合一区| 亚洲午夜国产一区99re久久| 国产视频自拍一区| 国产精品丝袜xxxxxxx| 99在线精品免费视频九九视| 亚洲二区在线观看| 欧美日韩久久精品| 1024国产精品| 国产一区二区三区免费观看| 欧美劲爆第一页| 亚洲精品免费在线观看| 久久美女艺术照精彩视频福利播放| 亚洲欧美日韩区| 欧美午夜久久| 亚洲视频免费在线观看| 国产精品久久久久9999| 久久久五月婷婷| 久久午夜精品一区二区| 欧美日韩三级电影在线| 国产精品视频精品视频| 亚洲精品日韩激情在线电影| 性刺激综合网| 国产精品无人区| 国产精品成人一区二区网站软件| 国产精品黄色| 欧美日韩中文字幕日韩欧美| 国产精品福利片| 一本色道久久88亚洲综合88| 国产精品日韩专区| 国产亚洲制服色| 亚洲亚洲精品三区日韩精品在线视频| 国产精品日韩高清| 欧美成人一品| 老巨人导航500精品| 国产精品老女人精品视频| 在线观看日韩专区| 欧美高清自拍一区| 久久精品99久久香蕉国产色戒| 久久久av水蜜桃| 欧美另类女人| 欧美一区视频在线| 欧美日韩综合久久| 国产亚洲午夜高清国产拍精品| 欧美人牲a欧美精品| 国产日韩精品视频一区| 亚洲高清二区| 一区二区三区欧美日韩| 欧美一区2区三区4区公司二百| 久久久久久自在自线| 136国产福利精品导航网址应用| 免费在线看一区| 久久精品国产清自在天天线| 亚洲精品一区二区三区av| 亚洲视频电影在线| 欧美精品www在线观看| 国产情人节一区| 久久久亚洲国产美女国产盗摄| 欧美一进一出视频| 亚洲一区美女视频在线观看免费| 韩国三级电影一区二区| 亚洲欧美变态国产另类| 久久精品国产77777蜜臀| 伊人色综合久久天天五月婷| 亚洲精品韩国| 亚洲欧洲精品一区二区| 欧美日韩另类国产亚洲欧美一级| 久久综合五月天婷婷伊人| 国产精品久久福利| 蜜臀av在线播放一区二区三区| 国产精品日本一区二区| 欧美成人黑人xx视频免费观看| 一个人看的www久久| 最近中文字幕mv在线一区二区三区四区| 亚洲欧美日韩第一区| 国产精品久久久爽爽爽麻豆色哟哟| 国产精品日产欧美久久久久| 性久久久久久久| 欧美不卡福利| 亚洲制服欧美中文字幕中文字幕| 性8sex亚洲区入口| 久久亚洲精品中文字幕冲田杏梨| 伊人精品视频| 亚洲电影第三页| 女仆av观看一区| 欧美国产在线电影| 国产精品美女久久久浪潮软件| 亚洲高清自拍| 亚洲欧美在线磁力| 久久综合亚州| 国内久久婷婷综合| 一本色道久久综合亚洲精品不卡| 在线观看av不卡| 伊人色综合久久天天五月婷| 国产精品一二| 欧美午夜精品久久久久久浪潮| 伊人成年综合电影网| 精品成人一区二区三区| 亚洲国产高清高潮精品美女| 激情视频亚洲| 日韩视频在线一区| 午夜天堂精品久久久久| 欧美视频一区二区三区四区| 在线一区二区日韩| 国产午夜精品美女视频明星a级| 在线不卡中文字幕播放| 亚洲精品视频在线观看免费| 久久一区免费| 欧美日韩国产影院| 亚洲精品国产精品国自产观看| 在线精品视频一区二区三四| 亚洲精品美女| 亚洲一区尤物| 欧美日韩国产精品专区| 欧美国产精品人人做人人爱| 亚洲欧美日本精品| 久久精品夜色噜噜亚洲a∨| 国产在线观看91精品一区| 国产精品爱啪在线线免费观看| 久热成人在线视频| 久久青青草综合| 亚洲高清在线| 午夜精品久久久久久久久| 国产综合一区二区| 好看的亚洲午夜视频在线| 亚洲电影av| **性色生活片久久毛片| 久久精品系列| 亚洲激情综合| 亚洲一区二区三区精品在线| 亚洲欧美日韩另类精品一区二区三区| 欧美大片va欧美在线播放| 亚洲一区免费观看| 亚洲国产精品视频| 国产精品劲爆视频| 国产精品系列在线| 欧美日本亚洲韩国国产| 亚洲黄页视频免费观看| 伊人成人网在线看| 欧美区在线观看| 欧美一区二区三区在线观看视频| 国产精品国色综合久久| 午夜在线a亚洲v天堂网2018| 欧美精品乱码久久久久久按摩| 欧美日韩国产麻豆| 国产精品久久久久久久久久免费看| 欧美国产视频在线观看| 影院欧美亚洲| 国产精品久久久久久久浪潮网站| 99ri日韩精品视频| 亚洲美女福利视频网站| 国产一区二区视频在线观看| 欧美中文字幕视频在线观看| 久久国产乱子精品免费女| 另类av导航| 99综合电影在线视频| 午夜精品婷婷| 国产日韩在线看片| 狠狠综合久久| 国产亚洲激情| 欧美一区二区三区免费视频| 亚洲国产一区视频| 久久久久久久久岛国免费| 久久九九有精品国产23| 国产久一道中文一区| 国产精品日韩一区| 欧美一区深夜视频| 亚洲日本精品国产第一区| 国产精品免费一区二区三区在线观看| 国产午夜精品久久久| 欧美成人中文字幕在线| 国产亚洲成av人在线观看导航| 久久久人成影片一区二区三区| 国模私拍一区二区三区| 一区二区三区欧美亚洲| 国产日韩一区在线| 亚洲国产合集| 国产精品一区二区久久久久| 亚洲天堂免费在线观看视频| 欧美日韩精品系列| 国产精品国产三级国产普通话三级| 欧美日韩少妇| 亚洲五月婷婷| 亚洲国产精品嫩草影院| 在线观看欧美日韩国产| 国产欧美日韩视频一区二区三区| 欧美精品电影在线| 国产日韩欧美二区| 国产精品一区二区久久久| 亚洲国产精品精华液2区45| 免费一级欧美在线大片| 欧美日韩亚洲一区在线观看| 免费中文日韩| 国产精品美女在线| 欧美一级午夜免费电影| 欧美成人精品在线播放|