《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 業界動態 > 一種提高搜索引擎檢索質量的網頁解析法

一種提高搜索引擎檢索質量的網頁解析法

2009-05-25
作者:鐘楚玲 朱 丹 曹二堂

??? 摘 要:通過實驗對網頁結構和特點進行綜合分析,給出對網頁分塊的原則和方法,在分塊的基礎上根據網頁中噪音的出現規則提出了一種消除網頁噪音的方法,使搜索引擎對網頁的預處理階段有效消除網頁中的無關項和間接項的超連接,從而大大提高了搜索引擎的檢索質量。
??? 關鍵詞:檢索質量;分塊模型;搜索引擎

?

??? 隨著Internet的快速發展,大量的信息呈現在用戶面前,據統計,國內Web網頁數量達3億以上[1],上網用戶總人數達8 700萬,將獲取信息作為上網最主要目的網民所占比例最多,達到42.3%[2]。數據表明,Internet已成為人們獲取信息的重要資源,而Google、Yahoo、百度、新浪、天網等中英文搜索引擎是人們徜徉信息海洋、獲取信息的工具。然而,人們面對如此豐富的Web資源,使用搜索引擎發現自己真正需要的信息卻并非容易。一方面,各搜索引擎不斷改進檢索技術來提高返回結果的精度,在一定程度上解決了人們獲取信息的問題;另一方面,由于搜索引擎自身的問題,返回的結果與用戶的要求仍有一定的距離,用戶對搜索引擎的滿意度不太高。主要表現為查詢結果中普遍存在大量的無關項和不含具體內容的間接項,造成搜索結果數量大、結果不精確、有用的結果淹沒在無用的結果之中的局面。用戶不得不花費大量的時間在查詢結果中尋找相關項,使得用搜索引擎來查找信息的目的難以達到。這種結果的原因之一是目前的搜索引擎沒有對網頁進行處理或只做了簡單的處理。
??? 目前的搜索引擎采用以關鍵字檢索為基礎的檢索技術[3-4],即搜索引擎按關鍵字對整個網頁進行索引和檢索。在這種處理方法中,所有出現在網頁中的字詞都被用作索引項,但實際的網頁中常常包含大量的與網頁主題無關的文字。例如,圖1和圖2是以“河北人民出版社”為關鍵字的檢索結果。圖1所示網頁的主要內容是關于2004十大印象圖書介紹,其中包括上海人民出版社出版的《達芬奇密碼》,在網頁中注明的出處是新華網河北頻道。在這個網頁中包含了“河北”和“人民出版社”,搜索引擎誤把它當做“河北人民出版社”的相關項。圖2所示網頁的主要內容是一些圖書的介紹,在左邊的導航欄中出現了河北人民出版社的連接,真正提供具體信息的應該是它指向的那個頁面,而那個頁面也應該能被檢索到,因此,圖2所示網頁是多余的間接項。

?

?


??? 如果搜索引擎在對網頁標引時,把整個網頁上不同主題、不同作用的文字混合在一起進行處理,那么,在檢索過程中根本無法排除如圖1所示的無關項。使用站點聚類技術,把出現在同一個站點上的結果項進行合并,雖然可以排除大部分如圖2所示的間接項,但是耗費了查詢時間。本文提出一種在標引前對網頁進行預處理的方法,能夠排除上述的無關項和間接項。
??? 目前的搜索引擎對網頁的預處理較簡單,幾乎保留了HTML網頁上所有的文字,這樣固然可以保證查全率,但從目前的網絡資源巨大豐富的角度來看,提高查準率對用戶更具有實際意義。在研究領域里,有人提出了基于HTML標記結構的規律對特定網站進行信息抽取[5],但不滿足搜索引擎對多種多樣的網站進行處理的要求;有人提出“語義塊”的概念對網頁內容分層,但沒有具體的實現方案[6];對于超連接的研究主要集中在對它所指向的頁面在檢索中的作用[7],但很少有人研究超連接對網頁的負面影響。
1 HTML網頁的塊結構模型和解析方法
1.1 HTML網頁的塊結構模型
??? 通過對大量的網頁進行分析,發現人們在設計網頁時通常是把網頁設計成幾個區域,把不同主題、不同作用的文字安排在不同的區域。結合HTML標記的特點,認為網頁是由塊組成的,塊中可以再嵌套塊。因此,HTML網頁的塊結構模型是:{<塊起始標記><塊內容><塊結束標記>[,<塊起始標記><塊內容><塊結束標記>,…]}。其中,塊內容中可以再包含塊。實際的網頁大多是由多層的塊嵌套構成的。
1.2 分塊原則及算法
??? HTML塊標記有


、 、 、
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          亚洲国产欧美精品| 日韩午夜中文字幕| 国产亚洲欧美aaaa| 亚洲视频在线一区观看| 国产欧美精品在线| 久久免费偷拍视频| 欧美国产免费| 久久字幕精品一区| 中文在线资源观看网站视频免费不卡| 亚洲大黄网站| 亚洲伦理一区| 久久精品国产第一区二区三区最新章节| 99视频+国产日韩欧美| 欧美一区二区三区另类| 欧美成人精品在线观看| 欧美美女视频| 久久网站热最新地址| 欧美日韩国产123区| 欧美午夜精品理论片a级按摩| 在线亚洲电影| 欧美午夜激情在线| 欧美中在线观看| 一区二区在线观看视频| 亚洲一区二区高清| 香蕉亚洲视频| 亚洲国产精品激情在线观看| 亚洲国产一区在线观看| 亚洲欧美日韩一区二区三区在线| 国产精品福利久久久| 欧美在线观看视频一区二区三区| 欧美国产综合一区二区| 欧美一区二区三区四区夜夜大片| 欧美午夜精品理论片a级按摩| 亚洲精品视频在线观看网站| 国产精品久久久一区二区三区| 欧美插天视频在线播放| 欧美成人xxx| 亚洲国产精品第一区二区| 国产嫩草一区二区三区在线观看| 亚洲一本视频| 老色批av在线精品| 国产性猛交xxxx免费看久久| 欧美成人精品一区二区三区| 国产精品视频yy9099| 欧美精品激情blacked18| 亚洲激情女人| 一区二区三区回区在观看免费视频| 久久久久久夜| 久热精品在线视频| 国产精品99久久久久久久vr| 亚洲一区二区三区四区五区黄| 亚洲国产精品久久久久秋霞影院| 久久精品国内一区二区三区| 欧美在线观看视频一区二区三区| 艳妇臀荡乳欲伦亚洲一区| 欧美三级韩国三级日本三斤| 在线成人www免费观看视频| 亚洲国产合集| 国产一区二区日韩精品欧美精品| 国产精品99久久久久久白浆小说| 国产午夜亚洲精品不卡| 另类综合日韩欧美亚洲| 99www免费人成精品| 亚洲人成网站777色婷婷| 免费观看在线综合色| 亚洲视频一区在线观看| 久久精品99国产精品日本| 亚洲欧美日本另类| 国产精品白丝av嫩草影院| 欧美午夜一区二区三区免费大片| 久久久一区二区三区| 国产精品任我爽爆在线播放| 国产一区二区精品丝袜| 国产主播一区二区三区| 一区二区三区欧美在线观看| 欧美日韩亚洲视频| 亚洲日韩欧美一区二区在线| 欧美一级在线视频| 国产精品日韩电影| 欧美亚洲日本一区| 国产欧美一区二区三区久久人妖| 亚洲一级电影| 夜夜爽99久久国产综合精品女不卡| 欧美一区二区三区四区高清| 欧美不卡高清| 91久久精品日日躁夜夜躁国产| 亚洲美女视频在线观看| 欧美日本国产视频| 一区二区三区久久网| 亚洲卡通欧美制服中文| 国产乱码精品一区二区三区忘忧草| 韩国v欧美v日本v亚洲v| 国产精品无码专区在线观看| 美女黄色成人网| 亚洲免费影视第一页| 欧美另类久久久品| 性色av一区二区三区在线观看| 国产精品女同互慰在线看| 免费日韩精品中文字幕视频在线| 国产午夜精品美女视频明星a级| 亚洲午夜性刺激影院| 国产精品久久久久77777| 99精品国产在热久久婷婷| 亚洲第一精品夜夜躁人人躁| 久久免费精品日本久久中文字幕| 日韩亚洲欧美中文三级| 亚洲欧洲一区二区在线播放| 国产精品视频一区二区三区| 亚洲人成网站影音先锋播放| 亚洲电影在线看| 欧美黄色一级视频| 免费成人小视频| 亚洲国产精品一区二区尤物区| 欧美日韩中字| 裸体女人亚洲精品一区| 亚洲福利免费| 欧美精品一区在线观看| 国产婷婷色综合av蜜臀av| 亚洲人精品午夜在线观看| 在线观看三级视频欧美| 免费在线欧美黄色| 欧美巨乳在线| 国产亚洲一区精品| 久久精品一区二区国产| 亚洲一区二区三区视频播放| 久久成人18免费网站| 亚洲一区二区三区成人在线视频精品| 亚洲最黄网站| 欧美日韩国产大片| 亚洲丁香婷深爱综合| 欧美精品一区在线观看| 久久久噜噜噜久久狠狠50岁| 亚洲女女做受ⅹxx高潮| 夜夜嗨av一区二区三区四季av| 亚洲电影免费观看高清完整版在线| 欧美一区二区日韩| 国产精品国色综合久久| 国产一区二区三区在线观看精品| 国产精品亚洲激情| 欧美一站二站| 在线免费高清一区二区三区| 欧美日韩精品综合在线| 国内视频精品| 亚洲香蕉伊综合在人在线视看| 一区二区三区中文在线观看| 欧美日韩国产小视频| 国产欧美一级| 蜜臀av性久久久久蜜臀aⅴ| 可以看av的网站久久看| 国产精品视频一二| 久久久无码精品亚洲日韩按摩| 亚洲网站在线看| 亚洲欧美一区二区精品久久久| 日韩亚洲国产欧美| 在线观看日韩一区| 亚洲色图制服丝袜| 欧美一区激情| 亚洲黄色大片| 欧美黄色小视频| 欧美另类69精品久久久久9999| 国产欧美日韩| 国产乱码精品一区二区三区忘忧草| 国产一区二区高清视频| 伊人久久亚洲美女图片| 久久一区激情| 欧美精品手机在线| 欧美日一区二区三区在线观看国产免| 国产亚洲成av人片在线观看桃| 伊人成人网在线看| 久久aⅴ乱码一区二区三区| 欧美在线不卡| 国产亚洲激情在线| 国产精品美腿一区在线看| 国产精品乱人伦中文| 亚洲一区国产精品| 亚洲美女网站| 欧美性天天影院| 蜜臀av一级做a爰片久久| 伊人久久亚洲影院| 国产精品色在线| 亚洲免费观看高清完整版在线观看熊| 欧美高清在线视频观看不卡| 国产丝袜美腿一区二区三区| 欧美日韩少妇| 日韩一区二区高清| 美国成人毛片| 欧美国产一区二区在线观看| 欧美成va人片在线观看| 欧美性大战久久久久| 极品尤物久久久av免费看| 久久视频免费观看| 狠狠色丁香婷婷综合| 国产精品久久午夜| 在线亚洲欧美视频| 欧美日韩亚洲在线| 在线观看欧美黄色| 午夜精品亚洲| 亚洲少妇最新在线视频| 欧美日韩视频一区二区三区| 亚洲精品欧美极品| 欧美中文字幕视频在线观看| 亚洲一区bb| 国产精品久久久久久影院8一贰佰| 久久久久久久久久码影片| 欧美一区国产在线| 午夜精品福利一区二区蜜股av| 久久午夜色播影院免费高清| 国产精品久久777777毛茸茸| 欧美大片一区二区| 欧美日韩精品高清| 亚洲一线二线三线久久久| 亚洲高清资源| 欧美日韩在线视频首页| 亚洲成色777777女色窝| 在线观看日韩国产| 久久九九免费视频| 国产情人综合久久777777| 久久99在线观看| 国产精品久久久久婷婷| 亚洲淫性视频| 国产精品爱啪在线线免费观看| 欧美精品二区三区四区免费看视频| 欧美婷婷在线| 亚洲欧美日韩在线高清直播| 国产欧美大片| 亚洲六月丁香色婷婷综合久久| 欧美日韩一区成人| 国产精品日韩欧美综合| 狠狠色综合网| 国产精品一区二区女厕厕| 性欧美大战久久久久久久久| 欧美巨乳在线观看| 欧美一区二区三区四区夜夜大片| 亚洲欧美成人网| 欧美三级午夜理伦三级中文幕| 在线一区二区三区四区| 日韩网站免费观看| 狂野欧美性猛交xxxx巴西| 国产情人节一区| 蜜桃av一区二区在线观看| 亚洲国产美国国产综合一区二区| 久久久水蜜桃av免费网站| 亚洲久久在线| 国产精品午夜春色av| 欧美在线免费观看亚洲| 欧美一区二区高清| 国产精品日韩久久久久| 精品成人乱色一区二区| 午夜日韩电影| 欧美成人精品激情在线观看| 亚洲国产网站| 亚洲经典视频在线观看| 国产精品免费一区豆花| 欧美一级播放| 狠狠网亚洲精品| 久久久不卡网国产精品一区| 精品av久久久久电影| 国产精品va在线播放| 久久精品视频在线播放| 在线精品亚洲| 亚洲美女精品成人在线视频| 免费亚洲视频| 亚洲国产美国国产综合一区二区| 欧美三级日韩三级国产三级| 欧美日韩精品一区| 欧美精品一卡二卡| 国产精品成人av性教育| 亚洲欧美激情精品一区二区| 亚洲视频一区二区免费在线观看| 亚洲人成在线播放网站岛国| 国产精品久久久一本精品| 日韩一级黄色片| 欧美国产日韩一二三区| 欧美日韩综合视频| 久久综合一区二区三区| 亚洲美女免费视频| 精品不卡一区二区三区| 久久亚洲影院| 伊人狠狠色j香婷婷综合| 欧美日韩在线一区二区三区| 欧美在线亚洲一区| 久久久久国产成人精品亚洲午夜| 亚洲黑丝一区二区| 国产亚洲成av人在线观看导航| 国产有码在线一区二区视频| 亚洲日本在线观看| 久久人人97超碰国产公开结果| 亚洲欧美日韩国产另类专区| 欧美网站在线观看| 久久九九精品| 国产欧美在线观看一区| 国产一区视频网站| 欧美日韩精品在线| 久久嫩草精品久久久精品| 国产在线视频欧美一区二区三区| 国产精品中文字幕在线观看| 国产精自产拍久久久久久蜜| 老巨人导航500精品| 亚洲黄网站黄| 欧美日韩在线另类| 老司机免费视频久久| 国产日韩欧美电影在线观看| 久久午夜激情| 欧美视频亚洲视频| 亚洲品质自拍| 亚洲曰本av电影| 欧美日韩中国免费专区在线看| 国语自产精品视频在线看一大j8| 午夜精品福利一区二区三区av| 一本色道久久加勒比88综合| 另类春色校园亚洲| 久久aⅴ乱码一区二区三区| 美女999久久久精品视频| 欧美在线国产精品| 欧美色欧美亚洲另类七区| 欧美日韩精品免费观看视一区二区| 国产精品成人播放| 欧美色区777第一页| 一区二区激情小说| 99精品视频一区| 国产欧美一区二区三区另类精品| 欧美日韩精品久久久| 欧美性理论片在线观看片免费| 欧美日韩国产首页在线观看| 美国十次了思思久久精品导航| 亚洲视频香蕉人妖| 国产精品s色| 国产原创一区二区|
          、

          等。在實際應用中,塊的劃分要合理。塊劃分得過多,會把相關的內容劃分到不同的塊區,這樣將導致網頁與查詢關鍵字的相關度降低;塊劃分得過少,會把不相關的內容劃分到同一個塊區,這樣將導致查準率的降低。例如,一篇文章由標題、作者、出處和多個段落組成,顯然這些文字應劃分在同一個塊區。經過對大量網頁的統計分析,不外乎兩種情況。一種是網頁中不包含

          標記,只有一篇文章,顯然,這類網頁只有一個塊區;另一種是網頁中包含多個
          標記,而一篇文章的標題、作者、出處和多個段落一般安排在某一個表格的一個或多個單元格中。因此,將網頁中的表格(
          標記)做為塊區比較合理。
          ??? 分塊原則如下:
          ??? (1)如果網頁中包含水平線標記
          ,首先按水平線分塊;
          ??? (2)在上述分塊的基礎上,如果包含
          、
          標記,按
          、
          分塊;
          ??? (3)如果在
          中包含水平線標記
          ,再按水平線分塊。
          ??? 分塊算法如下:
          ??? 查找水平線標記,插入塊標記;
          ??? While(文件沒有結束)
          ??? {查找塊起始標記和結束標記,位置存入tableLoc() ;
          ??? 同時,在tableSym中簡記為b和e; }
          ??? 將tableLoc中的位置數據排序,同時調整tableSym中的b、e標記;
          ??? While(tableSym中的標記數不等于0)
          ??? { 查找“be”;
          ??? 提取塊;
          ??? tableSym中的標記數減2;}
          1.3 消除噪聲的規則
          ??? 人們在制作網頁時,總是準備了一定的素材,這些素材是網頁設計者希望通過網頁傳達給訪問者的信息。但同時也會在網頁中增加一些連接到其他網頁的超連接,而這些超連接文字的作用僅僅起著向導作用,與頁面主題無關,它們的加入會影響到頁面的原貌,把這樣的超連接文字定義為網頁的“噪聲”,把網頁中原本要表達的內容定義為網頁的“主題內容”。
          ??? 通過對大量網頁的統計分析,噪聲主要來源于超連接文字,但并非所有的超連接文字都是噪聲,因此要準確地消除網頁中的噪聲也并非容易。
          ??? 網頁中的超連接文字可分為3類:
          ??? (1)超連接文字在網頁中僅僅起著向導作用,其目的是提供一個訪問目錄。超連接文字在它所指向的網頁中還會出現,這些頁面能夠被搜索引擎搜索到。因此,這類超連接文字是本網頁的噪聲。一般說來,這類超連接文字的前后還是超連接文字,所以噪聲通常聚集成塊。
          ??? 需要說明的是索引網頁中的超連接文字雖然是網頁的主題,但是超連接文字在它所指向的網頁中還會出現,這些頁面通常能夠被搜索引擎搜索到,所以,本網頁不必出現在搜索結果中。
          ??? (2)超連接文字在網頁中具有向導和陳述的雙重功能,超連接文字引向另一個網頁或本網頁的其他位置的同時,本身也是網頁主題內容的一部分,這樣的超連接文字也是網頁的主題內容,而不是噪聲。一般說來,這類超連接文字的前后的文字不是超連接。
          ??? (3)超連接文字所指向的目標文件中不會出現此超連接文字,目標文件是搜索引擎不能直接搜索到的文件。例如,超連接文字指向的目標是MP3格式文件、exe格式文件或圖片格式文件等,這些超連接文字不能視為網頁的噪聲。
          ??? 從網頁的結構上看,(1)類超連接文字聚集成塊,超連接文字與塊區內所有文字的比值R接近于1;(2)類超連接文字處在主題內容塊區,超連接文字與塊區內所有文字的比值R遠小于1。通過實驗確定兩個閾值R1和R2。若R>R1,則確定為噪聲;若R??? 根據上面的分析,在對網頁分塊的基礎上確定消除網頁噪聲的規則:
          ??? (1)在塊區中掃描超連接,如果超連接指向的目標是網頁,則將此超連接文字標記為準噪聲;如果超連接指向的目標不是網頁,則在網頁中保留此超連接文字。
          ??? (2)統計塊區內超連接文字數量及文字的總數量并計算其比值R,若R>R1,保留準噪聲標記;若R??? (3)檢查超連接前后相鄰的文字是否是超連接,如果相鄰的超連接數S大于某一閾值,將此超連接文字的準噪聲標記刪除。
          2 實驗及結果分析
          ??? 本文開發了一個HTML網頁解析器實現了上述算法。實驗中使用的網頁都是根據著名搜索引擎的搜索結果下載的真實網頁。實驗中參數的取值分別是:R1=0.9;R2=0.3;S=3。由于文章篇幅的限制,在此略去實驗結果的圖片。
          ??? 實驗一是網頁的分塊實驗,實驗中對數十個網頁進行了分塊,正確率達100%;實驗二使用100個網頁進行了消除(1)類超連接文字噪聲的實驗,其中98個網頁的無關項超連接和間接項超連接都被消除;實驗三和實驗四是保留(2)類超連接文字和(3)類超連接文字的實驗,正確率達100%。
          ??? 實驗二的正確率與R1、R2、S的值有關。對于參數S而言,如果值過小,就會把一些有用的超連接文字消除,例如文章的標題、作者、出處都有超連接時,這些文字是網頁的重要內容,不應消除;如果S的值過大,會將一些噪聲保留。通過對大量網頁的統計分析,認為S取值為3較合適,這樣即使在網頁中保留一些噪聲,由于數量較小,對網頁的影響也不大,同時對網頁有用的超連接文字也不會被誤認為是噪聲而消除。
          ??? 本文介紹的網頁解析方法在搜索引擎和數據挖掘方面具有重要的意義和應用前景。通過消除網頁的噪聲,使網頁的主題更加突出。在搜索引擎的返回結果中排除了無關項和間接項,提高了搜索引擎的查準率;在網絡使用行為挖掘領域,分析用戶感興趣的網頁方面,由于排除了噪聲的干擾,使得分析結果更準確。
          參考文獻
          [1]?中國互聯網信息中心. 2003年中國互聯網絡信息資源數量調查報告,信息資源開發利用調查報告[DB/OL].http://www.cnnic.net.cn/download/ manual/report20030330.doc: 60.
          [2]?中國互聯網信息中心. 第十四次中國互聯網絡發展狀況調查統計報告(2004年7月)[DB/OL].http://www.cnnic.net.cn/download/2004/2004072002.pdf
          [3]?杜阿寧,方濱興,胡銘曾,等. 中文交互式網絡搜索引擎及其自學習能力[J].計算機工程與應用,2003(10):148-150.
          [4]?陳俊杰,薛云,宋翰濤,等. 基于Agent的元搜索引擎的研究與設計[J].計算機工程與應用,2003(10): 33-36.
          [5]?KUSH M N, WELD DS,DOOREMBOS. Wrapper Induction for Information Extraction,proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, 1997: 729-735.
          [6]?CARCHIOLO V, LONGHEU A, MALGERIM. Malgeri,M.,Structuring the Web,Database and Expert Systems Applications,2000.Proceedings.llth International Workshop on,1123-1127,2000.
          [7]?N.Cras well, D. Hawking,S. e. Robertson,Effective Site Finding Using Link Anchor Information,SIGIR 2001,2001.

          本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
          热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
            <strike id="ygamy"></strike>