《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 網絡爬蟲性能研究
網絡爬蟲性能研究
來源:微型機與應用2011年第5期
漆志輝,楊天奇
(暨南大學 信息科學技術學院 計算機系,廣東 廣州 510632)
摘要: 受到學習模型爬蟲的啟發,主題爬蟲結合網頁內容和鏈接信息來估計網頁對給定主題的相關性,得到兩個新型的爬蟲變種。新型爬蟲強調的不僅是有學習相關網頁內容的能力,而且有引向相關網頁的能力,并且在查找特定主題方面的能力有質的提高。
Abstract:
Key words :

摘  要: 受到學習模型爬蟲的啟發,主題爬蟲結合網頁內容和鏈接信息來估計網頁對給定主題的相關性,得到兩個新型的爬蟲變種。新型爬蟲強調的不僅是有學習相關網頁內容的能力,而且有引向相關網頁的能力,并且在查找特定主題方面的能力有質的提高。
關鍵詞: 主題爬蟲;學習型爬蟲;學習型主題爬蟲

 隨著因特網技術的發展,傳統的通用搜索爬蟲正面臨著巨大的挑戰,已經不能滿足人們對個性化信息檢索服務日益增長的需要。專業搜索引擎搜索的內容只限于特定主題或專門領域,因而在搜索過程中無須對整個Web進行遍歷,只需選擇與主題頁面相關的頁面進行訪問。
 主題爬蟲的搜索策略常見的有5種:(1)基于內容評價的搜索策略。這類網絡蜘蛛在距離相關頁面集較近的地方搜索時表現出良好的性能。但由于頁面中的文本信息缺乏“全局性”,很難反映Web的整體情況,普遍存在“近視”的缺點。(2)基于鏈接結構評價的搜索策略。這種策略利用頁面之間的引用關系確定鏈接的重要性。這類搜索策略優點是考慮了鏈接的結構特征,缺點是忽略了頁面與主題的相關性,在某些情況下會出現搜索偏離主題的“主題漂移”問題。此外,其在搜索過程中需要重復計算PageRank值或Authority及Hub權重,計算復雜度隨訪問的頁面和鏈接數量的增長呈指數級增長。(3)基于未來回報價值評價的搜索策略。這種策略本質上是通過訓練發掘出鏈接文本中“隱含”的結構信息,這些結構信息反映了距離搜索目標的遠近,因而在搜索遠期回報方面具有一定優勢。然而,這類搜索策略也存在一些不足:一是預測未來回報能力有限;二是這種“離線”的訓練方式需要選擇典型站點或種子集,加重了用戶的負擔。(4)基于“綜合價值”評價的搜索策略。采用單一的評價方法不能有效預測鏈接的真實價值。這類搜索可以有效提高搜索效率。(5)基于動態價值評價的搜索策略。根據環境的變化動態調整價值評價機制,表現出極大的靈活性。
 根據搜索策略的不同可以把主題爬蟲歸為下面幾類:
 (1)傳統主題爬蟲[1]將描述主題的用戶查詢語句作為其輸入,這是一些種子網頁URL集,并且它會把查找導向感興趣的網頁。這種爬蟲的文本相似度是用信息相似度模型來計算的,這些模型有布爾型模型和向量空間模型(VSM)[2]。
 (2)語義型爬蟲[3]是傳統主題爬蟲的變種。根據語義相似度標準,把下載權重分配給頁面,這樣就可以計算出頁面內容和主題的相關度:如果頁面和主題都有概念上(沒必要是詞語上的)相似的短語,那頁面和主題具有相關性。短語之間的概念相似度是使用本體論[4]來定義的。
 (3)學習型爬蟲[5]采用訓練過程來給網頁指派訪問權重和引導抓取過程。這類爬蟲的特點是爬蟲學習了網頁相關方式或者通過網頁鏈接來到達相關頁面的路徑。
 將學習型爬蟲的思想和傳統主題爬蟲的思想進行合理結合,這樣改造出來的新型爬蟲就同時具有學習型爬蟲和傳統主題爬蟲的優點。受到HMM爬蟲的啟發,學習型爬蟲結合采用網頁內容和鏈接信息來估計網頁對給定主題的相關性,這樣就可以得到新型的爬蟲變種。
1 爬蟲設計與實現
 爬蟲的設計與實現:(1)輸入。爬蟲的輸入包括一定數量的初始種子URL和主題描述詞。主題描述詞可以是關鍵詞的列表。(2)下載網頁。抽取網頁中的活躍鏈接,并將其置于隊列中。主題爬蟲的隊列排序和傳統爬蟲不一樣,需要根據一定的標準重新排序。(3)處理網頁內容。對網頁進行分詞處理,分解成詞語向量,采用向量空間模型(VSM)來計算文本相似度。(4)權重分配。從網頁中抽取到的活躍鏈接放在一個權重隊列中,權重隊列中的權重分配是由爬蟲的類型和用戶的喜好決定的。(5)重復步驟(1)~(4)。選擇URL進行進一步的爬行,重復步驟(1)~(4)直到滿足一些停止爬行的條件,或者系統資源耗盡。
 HMM爬蟲[6]的工作是建立網頁內容與導向相關頁面路徑之間的關系。首先用戶瀏覽一個特定的主題頁面,并且對網頁進行標記相關或者不相關,保存這些頁面以建立頁面訓練種子集。相關頁面組成簇(D0)。不相關的頁面采用K-Means[7](K由用戶定義)分簇,它們形成簇D1~Dk。HMM模型建立的分簇基礎是:每個頁面有兩個狀態特征:(1)顯狀態。根據網頁的內容來確定頁面屬于哪個簇;(2)隱狀態。頁面和目標頁面的距離。假定頁面屬于這個簇,那這個簇的權重是它能導向目標頁面的概率。
 圖1中展現了HMM爬蟲訓練集。L0表示目標或0級網頁,L1是1級頁面(與目標頁面相距1個鏈接),L2是2級頁面(與目標頁面相距2個鏈接),L3是與目標頁面相距3個或更多鏈接。D0、D1和D2標簽分別對應簇0、1、2。有相同簇的頁面可能屬于不同頁面級,在同一頁面級的頁面可能屬于不同的簇。
HMM爬蟲用到的參數和記號:網頁的等級或隱狀態特征Li(i是等級),顯狀態用它們歸屬的簇Dj來表示。頁面集隱狀態和顯狀態可以用HMM模型來建模。


 在下一個步驟處于狀態L0的概率是HMM爬蟲分配給網頁的權重。如果兩個簇產生相同的概率(例如它們的概率差值低于預定義的閾值ε),那么更高的權重分配給那些具有可以在兩步內(同樣用式(1)和(2)計算)導向目標頁面概率更高的簇。在導向它們的路徑中,與相同簇次序相關聯的頁面分配相同的權重。改進后的爬蟲,頁面權重分數規定為用HMM爬蟲和計算的權重及代表頁面的由短語向量表示相關的分類(質心)向量的相似度的平均數。新型的HMM爬蟲變種只采用頁面內容,或同時采用頁面內容和鏈接文本。

2 實驗結果
2.1 實驗設置

 所有的爬蟲都用C++實現。要下載的頁面必須是text/html格式,其內容大小不超過300 KB。由于性能的因素,鏈接超時和下載時間同樣也要考慮。所有已實現的爬蟲都有這些限制。抓取過程一直重復,當抽取到預定頁面數量(1 000)時,則結束。實現且評估前面提到的所有爬蟲,讓它們抓取的主題相同。
 爬蟲的性能,由下載到的頁面中和主題相關的頁面比例決定(如相似度大于預定的閾值的頁面,本文中閾值取0.75)。這項措施稱為“收獲率”。收獲率可以用來調整測量爬蟲下載和主題高度相關頁面的能力。
 初始的種子頁面由人工完成。把相關的頁面組成主題的種子頁面,每個主題的種子頁面集大小為100。對于每個主題,把爬蟲抓取到的結果和種子頁面作比較,因為對爬蟲返回的每個頁面,采用VSM方法計算它們的文檔相似度,如果它們的相似度值的最大值比用戶定義的閾值要大,那么這個頁面就標記為正結果。爬蟲的正結果越多,這個爬蟲就越成功,即爬蟲抓取到和主題相似的結果的概率就更高。爬蟲的性能是所有主題的正結果數的平均數。
2.2 爬蟲評估
 本文對以下三種爬蟲進行了評估:(1)原始的HMM爬蟲;(2)HMM爬蟲采用頁面內容相似度,相似度具有相關頁面簇質心;(3)HMM采用頁面內容和鏈接文本相似度,相似度具有相關頁面簇質心。
三種爬蟲的結果比較如圖3所示。


 從圖3可以看到,改進后爬蟲的所有實現勝過傳統的HMM爬蟲,當允許它們根據頁面的內容分配給頁面不同的優先權時,這些頁面在導向它們的路徑中有相同的簇次序(即使在一個頁面中的鏈接,在使用鏈接文本的時候)。表1是三種爬蟲的平均運行時間和頁面相關率統計表。


 從表1可以看到,傳統的爬蟲運行時間是最短的,但它抓取到的網頁頁面相關率只有4.11%。兩種改進后的爬蟲——HMM爬蟲(2)和HMM爬蟲(3),其運行的時間相對較長,但其頁面相關率均達到13%以上,與傳統爬蟲相比,頁面相關率提高了9%以上。
 本文實現了兩個主題爬蟲變種,并且根據收獲率標準評價了三種主題爬蟲的性能。尤其要強調的是HMM學習型爬蟲,不僅學習目標頁面的內容,而且還學習了導向目標頁面的路徑。從本質上說,網絡蜘蛛的搜索問題是一個“多目標”規劃問題。在合理的時間限度內,以較少的網絡資源、存儲資源和計算資源的消耗獲得更多的主題相關頁面是主題爬蟲追求的最終目標。隨著人們對“個性化”信息服務需要的日益增長,專業搜索引擎的發展將成為搜索引擎發展的主要趨勢之一。
參考文獻
[1] Zuo Xiaojun, Zhang Kaituo. An improved search algorithm of focused crawler in vertical search engine[C]. Asia-Pacific Youth Conference On Communication Technology2010 (APYCCT 2010), 2010: 509-513.
[2] Ju Xiaolin, Chen Jihong, Shao Haoran. Hierarchical Web page classification method based on vector space model[C]. Journal of Nantong University(Natural Science Edition), 2010.
[3] Yang Shengyuan. A focused crawler with ontology-supported website models for information agents[C]. Advances in Grid and Pervasive Computing, 2010:522-532.
[4] LI Jun, FURUSE K, YAMAGUCHI K. Focused crawling by exploiting anchor text using decision tree[C]. Proceedings of the 14th International World Wide Web Conference, 2005:1190-1191.
[5] CHEN Y. A novel hybrid focused crawling algorithm to build domain-specific collections[D]. Ph. D. Thesis, Virginia Polytechnic Institute and State University, 2007.
[6] STEINBACH M, KARYPIS G, KUMAR V. A comparison of document clustering techniques[C]. Sixth ACM SIGKDD, World Text Mining Conference, Boston, MA, 2000.
[7] UDDIN M Z, LEE J J, KIM T S. Independent shape component-based human activity recognition via Hidden Markov Model[J]. Applied Intelligence, 2010,33(2):193-206.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美女人交a| 欧美日韩成人一区二区| 久久国产精品久久w女人spa| 99热这里只有精品8| 亚洲精品一二三区| 国产精品久久国产精品99gif| 欧美在线观看网址综合| 欧美激情一区二区三区在线视频观看| 国产精品永久免费视频| 亚洲韩国精品一区| 欧美日韩在线精品一区二区三区| 性欧美激情精品| 欧美色图五月天| 欧美日韩精品在线| 欧美日韩久久久久久| 欧美 日韩 国产精品免费观看| 国产一区二区三区直播精品电影| 99国内精品久久| 国产日韩欧美一区在线| 欧美激情视频在线播放| 国产欧美日韩亚洲| 欧美精品精品一区| 亚洲欧美国产精品专区久久| 樱桃视频在线观看一区| 国产三级精品三级| 黄色欧美日韩| 亚洲精品美女| 欧美亚洲综合久久| 亚洲一区二区三区精品在线| 一区二区三区精品视频| 欧美伦理a级免费电影| 亚洲免费观看高清完整版在线观看| 狠狠干狠狠久久| 国产一区二区精品久久91| 最新国产成人av网站网址麻豆| 欧美成人综合在线| 性色av一区二区三区在线观看| 久久九九全国免费精品观看| 亚洲欧美成人一区二区在线电影| 国产色爱av资源综合区| 午夜精品一区二区三区电影天堂| 欧美日韩无遮挡| 一区二区三区在线视频观看| 亚洲人成7777| 久久久久9999亚洲精品| 亚洲一本大道在线| 欧美日韩在线视频一区二区| 欧美午夜激情视频| 国产综合久久久久影院| 亚洲欧美日韩一区在线观看| 久久激情五月婷婷| 欧美裸体一区二区三区| 欧美色图一区二区三区| 国产日韩欧美自拍| 欧美日韩免费一区| 欧美丰满高潮xxxx喷水动漫| 国产亚洲精品一区二555| 一区二区欧美精品| 久久久久久久综合日本| 欧美久久一级| 一本久久a久久精品亚洲| 国产在线不卡精品| 欧美国产欧美亚洲国产日韩mv天天看完整| 影音先锋日韩有码| 欧美精品在线免费播放| 国产欧美一区二区在线观看| 欧美日韩国产小视频在线观看| 国产精品在线看| 日韩亚洲欧美一区二区三区| 性高湖久久久久久久久| 久久国产精品免费一区| 亚洲国产高清一区| 在线免费不卡视频| 国产伦精品一区二区三区| 欧美在线播放视频| 久久超碰97人人做人人爱| 久久亚洲影院| 亚洲人午夜精品免费| 欧美日本免费一区二区三区| 欧美日韩成人精品| 亚洲尤物精选| 亚洲国产精品电影在线观看| 欧美久久久久久久久| 正在播放欧美一区| 亚洲视频精品在线| 国产专区欧美精品| 国产免费观看久久黄| av成人毛片| 午夜精品久久久久久久99樱桃| 久久露脸国产精品| 国产欧美日本一区视频| 国外成人在线视频网站| 影音先锋成人资源站| 国产精品成人免费视频| 亚洲一区网站| 久久久美女艺术照精彩视频福利播放| 国产视频欧美视频| 午夜免费在线观看精品视频| 国产精品揄拍一区二区| 欧美日韩日日夜夜| 国产精品久久久久高潮| 欧美另类在线播放| 亚洲黄色片网站| 一区二区冒白浆视频| 卡通动漫国产精品| 国产人成一区二区三区影院| 国产乱码精品一区二区三区五月婷| 久久久久久久欧美精品| 国产精品系列在线播放| 亚洲成人自拍视频| 欧美在线免费观看| 国产日产亚洲精品| 99精品欧美一区二区三区| 欧美巨乳在线| 久久精精品视频| 一本一本久久a久久精品牛牛影视| 尤物精品国产第一福利三区| 久久久久久久久久久久久久一区| 久久久精品2019中文字幕神马| 久久精品国产99国产精品澳门| 欧美国产日韩精品免费观看| 亚洲日本va午夜在线影院| 亚洲大胆在线| 136国产福利精品导航| 欧美精品亚洲一区二区在线播放| 亚洲一区二区三区视频播放| 欧美日韩成人在线视频| 影音欧美亚洲| 亚洲黄网站黄| 午夜电影亚洲| 亚洲欧美第一页| 国产精品日韩久久久久| 亚洲专区一二三| 两个人的视频www国产精品| 怡红院精品视频在线观看极品| 欧美日韩大陆在线| 欧美丝袜一区二区三区| 制服诱惑一区二区| 亚洲一区日本| 日韩视频在线免费| 亚洲精品资源美女情侣酒店| 国产一区二区三区视频在线观看| 久久亚洲精品伦理| 亚洲图中文字幕| 免费视频久久| 久久成人免费网| 在线综合+亚洲+欧美中文字幕| 一区二区三区免费看| 亚洲国产视频直播| 久久久久久久久蜜桃| 国产精品免费福利| 欧美日韩一区二区三| 国产精品久久久久aaaa| av成人免费观看| 欧美一区精品| 欧美网站大全在线观看| 欧美韩日一区二区三区| 日韩视频免费观看高清在线视频| 国产精品成人免费精品自在线观看| 亚洲高清在线| 一区二区三区产品免费精品久久75| 欧美日韩一区免费| 欧美主播一区二区三区| 欧美成人a视频| 亚洲专区一二三| 狠狠久久亚洲欧美专区| 久久视频在线看| 在线不卡a资源高清| 亚洲另类一区二区| 永久久久久久| 狠狠色伊人亚洲综合成人| 亚洲高清在线精品| 麻豆精品视频在线观看| 欧美激情一区二区三区高清视频| 亚洲精品一区二区网址| 欧美日韩三级一区二区| 国语自产精品视频在线看8查询8| 亚洲第一黄网| 亚洲第一区色| 久久精品天堂| 欧美精品激情在线观看| 亚洲一级免费视频| 久久精品视频免费播放| 在线免费观看日韩欧美| 国内精品久久久久影院薰衣草| 亚洲日本中文字幕免费在线不卡| 尤物yw午夜国产精品视频| 欧美日韩国产综合一区二区| 国产欧美精品xxxx另类| 亚洲黄色成人| 红桃视频成人| 猛干欧美女孩| 一本色道久久综合亚洲精品小说| 欧美色视频一区| 香蕉视频成人在线观看| 久久九九99| 奶水喷射视频一区| 99re6这里只有精品视频在线观看| 一区二区成人精品| 国产精品一区二区三区久久| 男人的天堂亚洲在线| 欧美婷婷久久| 亚洲男人第一网站| 久久精品视频在线| 久久久久9999亚洲精品| 日韩视频在线观看免费| 久久综合中文字幕| 欧美日韩黄色一区二区| 日韩一区二区精品视频| 久久国产精品亚洲va麻豆| 美女露胸一区二区三区| 亚洲视频免费看| 亚洲小说区图片区| 久久久午夜电影| 久久久久久网址| 99国内精品久久| 亚洲永久精品国产| 欧美成人免费小视频| 国产一区二区精品在线观看| 欧美日韩国产精品一卡| 欧美日韩一区在线观看| 欧美三级电影大全| 夜夜夜精品看看| 亚洲免费伊人电影在线观看av| 国产一区二区三区四区五区美女| 亚洲精品一区二区三区四区高清| 久久精品女人天堂| 亚洲国产日韩欧美在线图片| 欧美精品123区| 欧美女同视频| 欧美日韩高清免费| 国产精品久久久久久久久| 欧美日韩视频一区二区三区| 国产欧美一区二区白浆黑人| 国产精品网红福利| 国产精品99久久久久久www| 美女爽到呻吟久久久久| 91久久精品日日躁夜夜躁欧美| 狠狠色丁香婷婷综合影院| 欧美婷婷六月丁香综合色| 亚洲深夜福利在线| 久久精品免视看| 亚洲无人区一区| 国产视频一区在线观看| 一区二区三区www| 欧美一区二区视频观看视频| 国产精品自拍视频| 麻豆9191精品国产| 国产性猛交xxxx免费看久久| 亚洲欧美在线高清| 欧美成人精品在线| 欧美日韩精品欧美日韩精品一| 亚洲专区免费| 亚洲精品在线免费观看视频| 中日韩美女免费视频网址在线观看| 欧美激情aⅴ一区二区三区| 欧美精品成人一区二区在线观看| 国产综合久久| 欧美日韩国产亚洲一区| 国产一区二区精品久久99| 欧美午夜a级限制福利片| 国产精品vvv| 亚洲精品日韩综合观看成人91| 国产精品国产精品国产专区不蜜| 国产精品美女久久久久aⅴ国产馆| 欧美日韩国产成人在线| 午夜精品久久久久影视| 久久精品91久久久久久再现| 亚洲综合成人在线| 极品av少妇一区二区| 国产精品久久久一区二区三区| 欧美一级成年大片在线观看| 亚洲女性喷水在线观看一区| 欧美视频在线观看免费网址| 国产精品午夜av在线| 韩日午夜在线资源一区二区| 国产精品乱码人人做人人爱| 一本久久综合亚洲鲁鲁五月天| 亚洲综合国产精品| 一区二区久久久久久| 国产精品乱看| 免费日韩一区二区| 亚洲精品久久7777| 欧美一区二区三区四区在线观看地址| 亚洲男人第一网站| 欧美日韩天天操| 亚洲电影天堂av| 亚洲精品国精品久久99热| 久久久久久久网站| 亚洲欧美视频一区二区三区| 黄色精品一区二区| 亚洲一区欧美一区| 在线免费观看日本欧美| 狠狠狠色丁香婷婷综合久久五月| 欧美日韩免费在线观看| 亚洲国产mv| 极品尤物一区二区三区| 香蕉成人啪国产精品视频综合网| 国产日韩av一区二区| 精品福利电影| 国产自产2019最新不卡| 欧美精品1区2区3区| 国产欧美精品日韩精品| 精品粉嫩aⅴ一区二区三区四区| 亚洲国产婷婷香蕉久久久久久99| 欧美精品91| 永久免费精品影视网站| 老司机一区二区| 男人天堂欧美日韩| 亚洲乱码一区二区| 亚洲日本国产| 欧美日韩情趣电影| 欧美精品播放| 欧美激情麻豆| 亚洲三级性片| 亚洲电影免费观看高清| 亚洲丝袜av一区| 欧美阿v一级看视频| 亚洲精品视频在线播放| 99这里只有久久精品视频| 国产精品v片在线观看不卡| 亚洲欧洲一级| 久久9热精品视频| 欧美视频一区二区三区四区| 亚洲欧美一区在线| 亚洲专区一区二区三区| 免费观看不卡av| 亚洲国产精品va在线看黑人|