《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于網頁分割的Web信息提取算法
基于網頁分割的Web信息提取算法
來源:微型機與應用2011年第5期
侯明燕,楊天奇
(暨南大學 計算機科學系,廣東 廣州 510632)
摘要: 針對網頁非結構化信息抽取復雜度高的問題,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本提取模板。對不同類型網站的實驗結果表明,該算法運行速度快、準確度高。
Abstract:
Key words :

摘  要: 針對網頁非結構化信息抽取復雜度高的問題,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本提取模板。對不同類型網站的實驗結果表明,該算法運行速度快、準確度高。
關鍵詞: 網頁分割;信息提??;聚類;閾值

 信息抽取IE(Information Extraction)是一種直接從自然語言文本中抽取事實信息,并以結構化的形式描述信息的過程。通常被抽取出的信息以結構化的形式存入數據庫中,可進一步用于信息查詢、文本深層挖掘、Web數據分析、自動問題回答等。Web頁面所表達的主要信息通常隱藏在大量無關的結構和文字中,這使得對Web文檔進行信息抽取十分困難。一般的網頁內容包括兩部分,一部分是網頁的主題信息,如一張新聞網頁的新聞標題、新聞正文、發布時間、新聞來源;另一部分是與主題無關的內容,如廣告信息、導航條,也稱為噪聲信息。如何有效地消除網頁噪聲,提取有價值的主題信息已成為當前信息抽取領域的一個重要課題[1]。參考文獻[2]提出一種依靠統計信息,從中文新聞類網頁中抽取正文內容的方法,有一定實用性,但適用范圍有限。參考文獻[3]針對Deep Web信息抽取設計了一種新的模板檢測方法,并利用檢測出的模板自動從實例網頁中抽取數據,但只能用于電子商務網站。參考文獻[4]從網頁中刪除無關部分,通過逐步消除噪音尋找源網頁的結構和內容,但提取結果不完整。
 考慮以上方法的優缺點,本文首先對網頁噪音進行預處理,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本抽取模板。
1 網頁預處理及區域噪音處理
1.1 網頁預處理

 可以通過以下3個預處理規則來過濾網頁中的不可見噪聲和部分可見噪聲:(1)僅刪除標簽;(2)刪除標簽及起始與結束標簽包含的HTML文本;(3)對HTML標簽進行修正和配對,刪除源碼中的亂碼。
1.2 區域噪音的處理
 為了實現網頁的導航,顯示用戶閱讀的相關信息,并幫助用戶實現快速跳轉到其他頁面,網頁中一般要設計列表信息,在處理此類信息時,本文設計了兩個噪音識別參數。
Length=Length(content)為<tag>…</tag>標簽內純文本信息的長度,設定字符的ASCII code>255?length+2:length+1。


3 算法描述
3.1 Xpath聚類算法

 將一個目標頁面表示為DOM樹結構,采用深度優先遍歷策略,提取DOM樹中的每個葉節點。對于每次遍歷的葉節點,通過比較其Xpath,將其序號添加到具有最大相似度的Xpath聚類中。具體算法描述如下:
Input DOMTree
Output XpathCluster
Cluster(DOM Tree)
{ XpathCluster =?準;
for each xpath of leaf node
{
if (XpathCluster.xpath.Find(xpath))
{XpathCluster.xpath.Insert(node);}
else
{XpathCluster.Insert(xpath);
XpathCluster.xpath.Insert(node);
}
}  
Return XpathCluster;
}
 由于在聚類過程中,可能將非正文信息聚類到正文信息類中,因此先分析其方差。若一個聚類中的方差很大,則利用式(5)定位到分割點,將目標正文信息塊與其周圍的分隔噪音塊分割開。另外,利用文本信息塊的聚類平均周期、信息長度和HUB判別等統計參數,幫助定位分割信息條。當第1個滿足全部啟發式規則和統計信息的聚類出現時,可以認為已經找到了正文信息塊,完成分割任務。分割算法描述如下:
Input XpathCluster //Xapth聚類
Output SegBoundary //分割邊界
Variables:Integer:Length_Threshold;
//正文長度的最小閾值
Float:Bn_Threshold;//Bn列表噪音判定系數的閾值
WebPageSeg
{  SegBoundary =?覬;
Count=0;
While(Count!=XpathCluster.size())
{
If(XpathCluster.at(count).var0 is within threshold)
If(xpathCluster.at(count).size()>
//MAXSIZE&&xpathCluster.at(cou
nt).length> Length_Threshold
&& xpathCluster.at(count).Bn>Bn_Threshold && ?駐 T>  
PreD ) //check
{SegBoundary.insert(each node within XpathCluster.at(count))
Break;
}
else Count++;
}
}else{//利用啟發式規則(1)進行分割
Detect segment point use(2.3.4)
Sort(new cluser);
Count++;
}
}
Return SegBoundary;
}
3.2 節點集合內的文本抽取算法
 節點集合內的文本抽取算法描述如下:
Input SegBoundary[];//分割出來的符合條件的文本塊
Output TextHashMap<tagpath,table textchunk,document
 //frequency>基于HashMap的文本塊模板映射
Variables Integer: Frequency_Threshold;
//table/div嵌套次數的閾值
StringBuffer: textChunk; //文本塊
For each  chunkp  in  SegBoundary[]
While p has more HTML nodes
nNode=p.nextnode;
ifnNode is not table/div Tag
textChunk=textChunk+extracted text from nNode;
//抽取nNode間的文本信息
else if nNode is table/div Tag
{
if TextHashMap.contains(tagpath)==true
{ documentfrequency++;}
else{
Documentfrequency=1;
}
TextHashMap.put(tagpath,textChunk,documentfrequency);
}
While TextHashMap has more{tagpath,textChunk,document //frequency}
h is TextHashMap’s item
if document frequency of h≥Frequency_Threshold  
Print textChunk of item h
3.3 閾值的確定
 在上述算法中,需要設定3個閾值參數:Length_ Threshold、Bn_Threshold、Frequency_Threshold,它們對算法的時間復雜度和抽取效果具有一定調節作用,處理網頁結構相似的網頁時,可以通過訓練樣本自適應地算出相應的閾值。對于不同類型網頁的閾值,3個參數的數據分布有較大不同,Length、Bn的數據分布絕大多數處于較小范圍內,這些數據也是需要去掉的噪音數據,因此,使用K-means[4]對樣本數據進行聚類處理,而frequency數據相對前兩個參數沒有明顯的分布趨勢,數據量不大,而且也處在{1-10}這樣的一個較窄的局部區間中。實驗表明,聚類分析效果不明顯,因此本文用算數平均值求解。
 (1)單個樣本網頁的閾值訓練


 本文設計一種新的文本抽取算法,該算法采用網頁標簽分割和HTML樹結構,能獲得較高準確度。整個算法簡單實用,前期的去除網頁噪音算法可以讓抽取的網頁正文信息更準確。在未來工作中,可以把該方法與現有中文信息處理技術相結合,如考慮文本信息的相關性以及文本的字體屬性來判斷其重要性。
參考文獻
[1] 歐健文,董守斌,蔡斌.模板化網頁主題信息的提取方法[J].清華大學學報:自然科學版,2005,45(S1):1743-1747.
[2] 孫承杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.
[3] Yang Shaohua, Lin Hailue, Han Yanbo. Automatic data extraction from template-generated Web pages[J]. Journal of Software, 2008,19(2): 209-223.
[4] GUPTA S, KAISER G, NEISTADT D, et al. DOM-based content extraction of HTML documents[C]. Proceedings of the 12th Word Wide Web Conference New York, USA: [s. n.], 2003.
[5] PELLEG D, BARAS D. K-means with large and noisy constraint sets[C]. Proceedings of the 18th European Conference on Machine Learning. Warsaw, Poland: [s. n.], 2007.
[6] 于琨,蔡智,糜仲春,等.基于路徑學習的信息自動抽取方法[J].小型微型計算機系統,2003,24(12):2147-2149.
[7] 周順先.文本信息抽取模型及算法研究[D].長沙:湖南大學,2007.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美一区久久| 国产精品久久亚洲7777| 欧美精品日韩www.p站| 国产精品进线69影院| 亚洲男女自偷自拍图片另类| 亚洲视频一区二区在线观看| 欧美日一区二区三区在线观看国产免| 国产精品日韩欧美一区二区| 中文一区二区| 亚洲一级黄色片| 这里只有精品丝袜| 国产精品theporn88| 蜜臀99久久精品久久久久久软件| 久久亚洲美女| 国内精品免费午夜毛片| 久久国产乱子精品免费女| 好看不卡的中文字幕| 欧美在线free| 久久精品色图| 国产欧美日韩麻豆91| 亚洲一区二区三区视频| 亚洲欧美国产日韩中文字幕| 欧美激情精品久久久久久| 蜜桃av一区二区在线观看| 西瓜成人精品人成网站| 国产欧美一区二区视频| 亚洲字幕一区二区| 雨宫琴音一区二区在线| 欧美成人免费网| 欧美成人官网二区| 午夜精品福利在线观看| 欧美三日本三级少妇三2023| 国产精品婷婷午夜在线观看| 亚洲视频精品| 亚洲综合日韩中文字幕v在线| 亚洲第一视频| 一区二区视频欧美| 亚洲一区二区三区四区五区午夜| 欧美午夜精品久久久久久久| 国产精品亚洲产品| 国产欧美精品一区二区色综合| 欧美激情一区二区三区蜜桃视频| 欧美屁股在线| 黑人巨大精品欧美黑白配亚洲| 欧美精品日韩一本| 欧美性淫爽ww久久久久无| 亚洲三级国产| 久久成人综合网| 在线精品视频一区二区| 亚洲人成网站999久久久综合| 欧美本精品男人aⅴ天堂| 久久一本综合频道| 国产伦精品一区二区三区高清版| 国产精品高潮在线| 亚洲人人精品| 欧美视频一区二区| 亚洲福利在线观看| 亚洲久久在线| 欧美午夜电影在线| 亚洲欧美久久久久一区二区三区| 99国产精品视频免费观看| 一本大道久久a久久精二百| 国产精品午夜在线| 国产永久精品大片wwwapp| 亚洲国产精品va在线看黑人| 国产一区在线播放| 欧美高清日韩| 亚洲欧美另类综合偷拍| 久久久人成影片一区二区三区观看| 亚洲二区在线观看| 久久久99爱| 一区二区高清视频| 香蕉成人伊视频在线观看| 亚洲精品国产精品国产自| 亚洲一区二区免费| 欧美日韩一区二区免费在线观看| 久久亚洲高清| 免费成人av在线看| 国产精品专区h在线观看| 亚洲伊人伊色伊影伊综合网| 久久一区二区三区av| 国产精品成人观看视频免费| 欧美日韩视频不卡| 亚洲韩国日本中文字幕| 一区免费观看| 国产色婷婷国产综合在线理论片a| 亚洲激情一区二区| 国产精品中文字幕欧美| 在线观看视频一区二区| 国模精品一区二区三区| 国产精品免费久久久久久| 久久亚洲美女| 一区二区亚洲精品国产| 一区二区三区国产| 亚洲精品国产无天堂网2021| 欧美xxx成人| 亚洲精品久久久一区二区三区| 嫩草伊人久久精品少妇av杨幂| 欧美.com| 免费在线一区二区| 久久久久久亚洲精品不卡4k岛国| 久久久精品一品道一区| 欧美**字幕| 夜夜夜久久久| 亚洲欧洲在线播放| 久久久久久伊人| 性做久久久久久久久| 在线看片一区| 亚洲女性喷水在线观看一区| 欧美一区日本一区韩国一区| 国产一区欧美| 久久综合网色—综合色88| 亚洲欧美色婷婷| 欧美成人精品福利| 欧美一级专区免费大片| 欲香欲色天天天综合和网| 亚洲激情图片小说视频| 国产精品嫩草久久久久| 亚洲自拍高清| 揄拍成人国产精品视频| 亚洲一区中文字幕在线观看| 好看的日韩av电影| 欧美巨乳波霸| 一本色道**综合亚洲精品蜜桃冫| 国产精品卡一卡二| 亚洲免费视频成人| 亚洲日本欧美天堂| 一区在线视频| 欧美不卡激情三级在线观看| 亚洲激情影院| 在线 亚洲欧美在线综合一区| 一本色道久久综合狠狠躁篇怎么玩| 国产欧美亚洲精品| 中文日韩欧美| 一本久久a久久精品亚洲| 亚洲一级在线观看| 欧美日韩国产黄| 亚洲精品乱码| 欧美一区二区在线观看| 美国三级日本三级久久99| 免费一区二区三区| 夜夜嗨av色一区二区不卡| 欧美午夜精品久久久久久孕妇| 亚洲手机成人高清视频| 亚洲性视频h| 久久这里只有精品视频首页| 亚洲高清视频中文字幕| 亚洲乱码国产乱码精品精98午夜| 免费成人av资源网| 国产精品自拍小视频| 久久久亚洲一区| 亚洲成色最大综合在线| 亚洲国产欧美日韩| 国产精品久久久久久亚洲调教| 久久在线免费| 激情久久五月天| 欧美日韩一区二区欧美激情| 亚洲高清视频中文字幕| 亚洲中午字幕| 欧美三区美女| 一区二区三区四区五区视频| 欧美精品日日鲁夜夜添| 国内精品久久久久影院薰衣草| 国产精品区一区二区三| 精品动漫一区二区| 一二三区精品福利视频| 欧美国产成人精品| 欧美伊人久久久久久午夜久久久久| 亚洲在线视频免费观看| 国产亚洲精品高潮| 欧美日韩一区二区三区免费看| 欧美一级大片在线免费观看| 在线不卡a资源高清| 国产精品亚洲产品| 国产精品日本欧美一区二区三区| 午夜视频在线观看一区二区| 久久蜜桃资源一区二区老牛| 午夜日韩在线观看| 亚洲视频在线一区观看| 亚洲国产视频一区二区| 狠狠色丁香婷婷综合| 怡红院av一区二区三区| 久久精品亚洲一区| 免费成年人欧美视频| 欧美巨乳在线| 亚洲欧洲在线一区| 国产一区二区三区观看| 欧美精品导航| 欧美一区二区在线看| 国产精品国产自产拍高清av王其| 99re在线精品| 亚洲欧美电影院| 亚洲视频电影图片偷拍一区| 欧美凹凸一区二区三区视频| 欧美日韩一区在线| 国产一区二区主播在线| 国产精品成人国产乱一区| 精品91在线| 国产欧美一区二区三区在线看蜜臀| 国产精品午夜国产小视频| 欧美日韩不卡| 你懂的国产精品| 欧美日一区二区在线观看| 性色av一区二区三区红粉影视| 亚洲天堂av综合网| 国产精品在线看| 亚洲精品一区二区三区av| 欧美在线免费播放| 欧美日韩亚洲一区二区三区四区| 欧美激情网友自拍| 欧美日韩国产天堂| 亚洲欧美一区二区三区极速播放| 欧美尤物一区| 99re视频这里只有精品| 午夜精品一区二区三区在线视| 国产欧美亚洲日本| 欧美一区二区三区免费视| 亚洲自拍都市欧美小说| 久久av一区二区三区| 一本色道婷婷久久欧美| 欧美日韩在线电影| 久久美女艺术照精彩视频福利播放| 亚洲国产精品一区二区三区| 一区二区冒白浆视频| 国产免费观看久久| 亚洲欧洲日韩女同| 欧美日韩一区二区三区在线观看免| 国产精品久久久久久久久久免费| 久久夜色精品国产欧美乱极品| 欧美日韩一区二区在线观看| 国产欧美日韩视频一区二区三区| 在线亚洲观看| 欧美+日本+国产+在线a∨观看| 久久婷婷综合激情| 欧美 日韩 国产精品免费观看| 欧美三级网址| 久久久91精品国产一区二区三区| 亚洲一区国产视频| 欧美理论视频| 一区二区三区在线观看国产| 国产一区二区欧美日韩| 欧美午夜精品久久久久久久| 狼人天天伊人久久| 欧美日韩国产不卡| 国产亚洲精久久久久久| 亚洲在线免费观看| 午夜日韩在线| 久久人人97超碰精品888| 亚洲国产精品va在看黑人| 欧美激情小视频| 欧美一区激情视频在线观看| 亚洲在线1234| 久久久久久伊人| 99视频在线观看一区三区| 久久久.com| 91久久精品日日躁夜夜躁欧美| 国产精品第三页| 国产精品高潮呻吟久久av黑人| 国产精品乱码妇女bbbb| 中日韩午夜理伦电影免费| 中文日韩在线| 亚洲网站视频| 国产女主播在线一区二区| 性高湖久久久久久久久| 最新中文字幕亚洲| 欧美顶级艳妇交换群宴| 国产精品xvideos88| 国产精品亚洲综合一区在线观看| 久久成人综合视频| 欧美伦理a级免费电影| 鲁鲁狠狠狠7777一区二区| 久久狠狠久久综合桃花| 久久国产加勒比精品无码| 欧美日韩一区二区在线观看| 久久精品国产亚洲精品| 国产亚洲福利社区一区| 久久精品二区三区| 午夜国产不卡在线观看视频| 久久成人免费视频| 久久久久久午夜| 亚洲精品系列| 国产精品免费看片| 欧美伊人久久久久久午夜久久久久| 欧美国产欧美亚洲国产日韩mv天天看完整| 在线成人中文字幕| 欧美超级免费视 在线| 奶水喷射视频一区| 在线综合亚洲欧美在线视频| 亚洲精品日韩一| 国产精品美女视频网站| 性欧美video另类hd性玩具| 一二美女精品欧洲| 亚洲欧美久久久久一区二区三区| 在线精品视频一区二区三四| 麻豆精品国产91久久久久久| 欧美日韩免费在线观看| 鲁鲁狠狠狠7777一区二区| 在线看片第一页欧美| 欧美日韩三级视频| 久久精品国产免费观看| 欧美好骚综合网| 欧美久久久久久久久久| 欧美日韩国产大片| 在线播放中文字幕一区| 牛夜精品久久久久久久99黑人| 一区二区三区回区在观看免费视频| 午夜在线a亚洲v天堂网2018| 欧美成人亚洲成人| 国产精品劲爆视频| 亚洲资源在线观看| 欧美一激情一区二区三区| 99视频在线观看一区三区| 久久成人综合网| 国产视频精品va久久久久久| 国内精品**久久毛片app| 国产日韩精品一区二区三区在线| 国产精品久久久久久久久久免费| 免费av成人在线| 午夜日韩视频| 久久久久久一区| 欧美高清自拍一区| 亚洲午夜精品在线| 免费日韩av| 亚洲一区二区欧美| 欧美久久综合| 亚洲综合精品| 一区二区三区四区五区精品| 国产偷久久久精品专区|