《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于社區增量自適應爬蟲研究
基于社區增量自適應爬蟲研究
來源:微型機與應用2010年第21期
馬 睿
(暨南大學 信息科學技術學院,廣東 廣州 510632)
摘要: 在分析傳統的網絡蜘蛛搜索特點的基礎上,充分利用Web資源分布的特點,提出了基于在線增量自適應算法的搜索策略。該算法一方面避免了過早陷入Web搜索最優子空間的陷阱;另一方面不斷對爬蟲數據庫更新,以提高其對鏈接主題的判斷能力。通過對四所著名大學計算機網站做的搜索實驗,表明新的算法可以有效地提高網絡蜘蛛的搜索性能。
Abstract:
Key words :

摘  要: 在分析傳統的網絡蜘蛛搜索特點的基礎上,充分利用Web資源分布的特點,提出了基于在線增量自適應算法的搜索策略。該算法一方面避免了過早陷入Web搜索最優子空間的陷阱;另一方面不斷對爬蟲數據庫更新,以提高其對鏈接主題的判斷能力。通過對四所著名大學計算機網站做的搜索實驗,表明新的算法可以有效地提高網絡蜘蛛的搜索性能。
關鍵詞: 網絡蜘蛛;搜索策略;在線增量自適應

    隨著Internet的快速發展,Web上的信息資源也呈指數級增長,搜索引擎已經成為網絡用戶獲取各種信息的必備工具。對于搜索引擎來說,要抓取互聯網上的所有信息幾乎是不可能的,從公布的數據來看,容量最大的搜索引擎也只不過是抓取了整個網絡信息的40%左右。傳統的搜索引擎(如Google、Baidu、Yahoo等)大多數都是面向所有信息的搜索引擎,是一種通用搜索引擎。這種通用搜索引擎已經不能滿足特定用戶更深入的查詢需求,他們對信息的需求往往是面對特定領域和特定主題的。面對挑戰,適應特定人群需要的專業搜索引擎逐漸引起研究學者的重視。
    主題網絡蜘蛛是最近幾年興起的研究熱點,它針對某個專門的領域進行搜索,以滿足特定人群的個性化需求。網絡蜘蛛研究的核心是解決頁面和URL的主題相關性判別的問題,因此如何評價鏈接價值就成了網絡蜘蛛爬進效率的關鍵。鏈接價值可以分為兩類,即基于立即回報價值和基于未來回報價值。
    立即回報價值算法是依據搜索時在線獲得的文本或Web結構來對鏈接的頁面重要程度進行預測,進而決定鏈接訪問順序。這類方法理論基礎好,計算簡單,在距離相關頁面比較近的時候表現出良好的性能。但它很難反映Web的整體情況,網絡蜘蛛在距離相關頁面比較遠的時候容易迷失方向?;谖磥韮r值的算法利用Web上的信息分布在某種程度的相似性,對網絡蜘蛛先進行訓練,使其具有一些經驗信息,對未來搜索具有一定的預測性。但其預測能力有限,而且需要用戶選擇種子集,搜索時不靈活,容易引起主題漂移[1-4]。
本文基于兩類評價方法,提出了一種在線學習的自適應綜合價值的網絡蜘蛛搜索算法,利用Web資源分布的某些相似性和鏈接價值的關系,將立即價值和未來價值的評價方法相結合,在爬行過程中不斷自身提高鏈接主題相關性的判斷能力,從而改進網絡蜘蛛的性能。
1 主題爬行策略
    根據評價鏈接價值所采用的不同方法,現有的網絡蜘蛛的搜索策略分為兩大類:基于立即回報價值評價的搜索策略和基于未來回報價值的搜索策略。本文采用基于內容評價的策略(基于立即價值)和基于鞏固學習的搜索策略(基于未來價值)。
基于內容評價的搜索策略,主要是根據主題與鏈接文本“語義”的相似度來評價鏈接價值的高低。鏈接文本是指周圍的說明文字和和鏈接URLs上的文字信息。相似度的評價一般采用下面的公式:

其中,q代表主題關鍵詞集合,p代表頁面鏈接文本集合,Wkp代表d中單詞對某一主題的重要程度,Wkp通常采用tf×idf公式計算。
    基于鞏固學習的搜索策略,鞏固學習的優勢在于能預測遠期的回報價值(也稱未來價值)。未來價值用Q來表示,這種方法的核心就是如何計算鏈接的Q價值。為此,搜索過程被分為訓練和搜索兩個階段。訓練階段用鞏固學習算法計算每個鏈接的Q價值,按價值的大小分為若干類,并用每一類中的文本信息訓練一個Naive Bayes分類器;在搜索階段,面對價值未知的鏈接,則根據鏈接文本,用Naive Bayes分類器計算鏈接落在每一類中的概率,并以這個概率為權值來計算鏈接的Q價值。因為Q價值反映的是未來的回報預測值,所以當搜索的頁面與主題不相關時,網路蜘蛛也可以根據未來回報的預測值來確定正確的搜索方向。
該模型的核心就是如何計算鏈接的Q價值。Q價值的計算公式[5]:

2 在線增量自適應算法網絡蜘蛛搜索策略
2.1 Web資源分布和鏈接價值的關系

    雖然整個網絡資源的分布是無序的,但近年來的研究表明,與某一主題相關的頁面以不同群聚群體的方式分散在網絡中,把這些群體稱為Web社區[6]。圖1中顯示了這種Web社區的分布關系。在網頁的設計過程中不可能把所有相關的網頁鏈接在一起,網頁中只包含了極少部分與該主題相關的網頁鏈接,這些資源信息一起構成了一個與某一主題相關的Web社區。在某一站點附近有很多緊密聯系的站點,它們都能基本地反映某個主題。但在網頁的發布過程中,可能會出現與之有一定關聯但又與主題不相關的無關網頁,這些無關網頁在網絡蜘蛛的爬行過程中會導致中心主題發生漂移。正是由于這些無關網頁的“干擾”,使得網絡蜘蛛在爬行的過程中隨著時間的推移,爬行出來的鏈接會與最初鏈接的主題相關性差別越來越大,系統爬行到的網頁也越來越少。這就要求在網絡蜘蛛的爬行過程中,一方面能盡可能地覆蓋所有相關網頁;另一方面又要在爬行的過程中不斷“更新”,以提高主題相關性的判斷能力。這就要求網絡蜘蛛在不同的階段采用不同的搜索策略,同時不斷“自我更新”,以提高爬行的效率和精度。

2.2 算法思想
    根據Web資源的分布信息,本文把網絡蜘蛛爬行的過程人為地分為兩個階段:挖掘和探索。在Web社區內,由于和主題相關的網頁比較多,立即價值比較大,這個時候就要求能盡快地挖掘Web社區內與主題相關的網頁信息。這個時候適合選取注重發掘立即價值的搜索策略。而在Web社區之間,由于存在大量與主題無關的網頁,這個時候要注重探索,盡可能地探索到與主題相關的Web社區。但這個時候鏈接的立即價值會很小,適合選取基于未來價值的搜索策略,本文采用基于鞏固學習的搜索策略。同時為減少網絡蜘蛛在爬行過程中的主題漂移,提高主題相關性的判斷能力,在每爬完N個Web社區后(本文用爬行一個固定時間段來表示),系統選取爬蟲數據庫中爬行到的與主題相關度高前100名的頁面,與其對應的正向鏈接信息組成的實例加入鏈接分類器的訓練數據。鏈接分類器一旦訓練完成,就可以對新產生的鏈接進行相關度分析。自身通過爬蟲數據庫新進的主題相關度高的頁面和頁面正向鏈接信息不斷修正,提高主題相關性的判斷能力。
2.3 在線增量自適應算法的設計和實現
    在線增量自適應算法的本質是:通過網路蜘蛛的爬行,在Web社區內盡可能地挖掘和主題相關的頁面,而在社區外獲取那些具有較高的未來Q價值的鏈接。反過來,在搜索時又根據鏈接文本的Q價值估算出鏈接的價值,決定選擇行動的概率。同時,不斷通過爬蟲數據庫新進的主題相關度高的頁面和頁面的正向鏈接信息修正,提高鏈接主題相關性判斷能力。本文利用Java技術,算法實現過程如下:
ZX-ZL(topic,startUrls){
        Link_1=fetch link(startUrls);
        While(visited<MAX_PAGES){
    //小于爬蟲最大訪問量
score_r1=sim(topic, doc);  //計算立即價值
If(socre_r1>r1)
enqueue_1(frontier,extract_links(doc),score_1);
else{
score_r2=Q(topic, doc);   //計算未來價值
if(score_2>r2)
continue;
else
enqueue_2(links);
}
}
}
2.4 算法過程描述
    (1)網絡蜘蛛首先從一個“種子集”出發,并選擇其中的一個鏈接訪問。
    (2)按照式(1)計算鏈接節點的立即價值。
    (3)判斷所得的立即價值是否大于系統給定的閾值r1,如果大于給定閾值,則將該鏈接加入到候選URL列表里。如果小于給定的閾值r1,就利用式(2)計算此鏈接的未來價值。
    (4)如果經計算所得未來價值大于系統給定的閾值r2,系統就并發另一個線程從此節點開始,返回步驟(2)。
    (5)如果所得的未來價值小于給定的閾值r2,將該鏈接列入被舍棄的URL列表里。結束此線程。
    另外每隔T的時間后,手動選擇與主題相關度高前100的頁面加入鏈接分析器進行訓練,對爬蟲數據庫進行更新[7]。
3 實驗與結果分析
3.1 實驗背景

    本文選取了如表1所示的美國四所大學的計算機網站做了實際的搜索實驗,搜索目的是尋找本地服務器中的計算機論文,以PDF和.PS結尾的計算機論文定義為相關文檔。采用基于立即價值、未來價值和基于本文所描述的在線增量學習的自適應算法三種不同搜索策略的網絡蜘蛛,在線統計Web上與計算機相關的論文數,并計算各自的查全率和查準率。本文采用FOLDOC在線計算機字典作為主題關鍵字集合[8]。其中包括13 000個計算機專業詞匯,并進行了一些擴充。從站點的主頁出發,對上述四所大學Web服務器進行了實際的搜索測試,共找到了15 034篇與計算機相關的論文。

3.2 實驗結果和性能分析
    圖2中,三種不同搜索策略在不同階段的查全率不同。其原因在于,基于立即價值的搜索策略在相關社區中的搜索率很高,可以很快地找到相關網頁,所以其增長率很快。但在找無關網頁集合時容易迷失方向,從一個Web社區搜索完畢后進入另一個Web社區的能力較弱,查全率會降低;基于未來價值的搜索策略,在尋找無關頁面集合中,未來價值對預見遠期回報很有幫助,它可以很快地找到論文的目錄所在,但早期的回報率不高;基于在線增量自適應算法采用綜合的搜索策略,除在搜索初期其回報略低于基于立即價值的網絡蜘蛛外,其增長率很快超過兩種算法。不論是在社區內的搜索還是過度無關網頁來獲取遠期回報,它都表現出了優異的性能。


    圖3中基于在線增量自適應算法的網絡蜘蛛查準率顯然高于其他兩種。除了最初的階段外,其余時間的查準率都高于50%。其原因在于每隔一定的時間,爬蟲數據庫不斷自我更新,提高主題相關性的判斷能力。在Web社區外,在一定程度上避免了采集大量的無關文檔;在主題相關的Web社區內又提高了其搜索能力,因此其查準率很高。而基于立即價值的網絡蜘蛛在跨越Web社區時常常會發生主題偏移,容易導致局部最優?;谖磥韮r值的網絡蜘蛛在跨越Web社區時采集了大量與主題無關的文檔,同時在主題相關社區內的搜索能力又比較低,因此查準率不高。

    本文將基于改進的鞏固學習方法的行動策略的在線增量自適應算法引入搜索引擎中,避免了過早陷入Web搜索局部最優子空間的陷阱。同時,不斷更新爬蟲數據庫,提高了其對主題相關性的判斷能力,從而提高了搜索引擎的查準率。實驗表明,該算法的查全率不但大大高于兩種傳統的單一算法,同時也整體提高了搜索引擎的性能。
參考文獻
[1] MURRAY B H, MOORE A. Sizing the internet[M]. A White Paper: Cyveillance, Inc. 2000.
[2] LAWRENCE S, GILES L. Accessibility and distribution of information on the Web[J]. Nature, 1999, 400(8): 107-109.
[3] BREWINGTON B E, CYBENK G. How dynamic is the Web[J]. Computer Networks, 2000, 33(1-6). 257-276.
[4] ESTER M, GROB M, KRIEGEL H. Focused Web crawling: a generic framework for specifying the user interest and for adaptive crawling strategies[Z]. Proceeding of the International Conference on Very Large Database (VLDB’01), 2001.
[5] 陳治平.智能搜索引擎理論與應用研究[D].長沙:湖南大學,2003.
[6] 傅向華,馮博琴,馬兆豐,等.可在線增量自學習的聚焦爬行方法[J].西安交通大學學報,2004,38(6):599-602.
[7] HOWE D. Free on-line dictionary of computer[WZ]. http: //www. foldoc. org/. 2010.
[8] CHO J, GARCIA-M H, PAGE L. Efficient crawling through URL ordering[J]. Computer Networks, 1998, 30(1-7): 161-172.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          亚洲国产精品久久精品怡红院| 国产日韩精品一区二区三区在线| 在线视频你懂得一区二区三区| 国产精品久久久久久久久久尿| 国产精品女人网站| 国产一区二区福利| 亚洲一区日本| 韩国精品主播一区二区在线观看| 国产精品午夜电影| 欧美日韩久久精品| 亚洲理论电影网| 亚洲欧美电影在线观看| 久久尤物视频| 伊人一区二区三区久久精品| 亚洲欧美成人网| 欧美午夜无遮挡| 欧美视频中文一区二区三区在线观看| 亚洲一二三区在线观看| 久久精品系列| 在线观看视频一区二区| 午夜免费电影一区在线观看| 亚洲国产三级网| 99精品欧美一区二区蜜桃免费| 国产精品99久久久久久有的能看| 日韩一区二区精品视频| 欧美亚洲一级| 欧美特黄a级高清免费大片a级| 亚洲国产精品一区二区三区| 欧美专区在线播放| 欧美日韩一区二区三区高清| 亚洲一区二区三区视频播放| 欧美黄免费看| 韩日欧美一区二区三区| 久久久精品久久久久| 欧美精品在线观看| 日韩一级二级三级| 国产一区二区| 欧美a级片网站| 中文在线资源观看视频网站免费不卡| 亚洲一区二区成人| 亚洲欧美日韩国产精品| 久久精品国产999大香线蕉| 欧美一二三视频| 国产精品视频免费观看www| 国产精品magnet| 国产精品热久久久久夜色精品三区| 欧美精品一区二区三区在线看午夜| 久久久777| 国产精品二区三区四区| 欧美午夜精品理论片a级大开眼界| 久久激情婷婷| 亚洲欧洲av一区二区| 在线观看日韩国产| 午夜精彩国产免费不卡不顿大片| 亚洲综合三区| 免费看的黄色欧美网站| 欧美日韩亚洲激情| 在线看日韩欧美| 欧美xxxx在线观看| 影音先锋中文字幕一区| 久久精品视频在线免费观看| 国产中文一区二区三区| 一区视频在线看| 欧美成人黄色小视频| 亚洲另类春色国产| 国产精品资源在线观看| 久久亚洲国产精品日日av夜夜| 国产精品一级久久久| 久久综合久久综合九色| 亚洲影院免费观看| 免播放器亚洲| 欧美日韩播放| 亚洲观看高清完整版在线观看| 欧美另类69精品久久久久9999| 欧美韩国在线| 欧美顶级艳妇交换群宴| 国产精品久久久久一区二区| 校园春色综合网| 欧美激情综合五月色丁香小说| **性色生活片久久毛片| 国产精品美女在线| 国产精品资源| 黑人巨大精品欧美一区二区| 欧美激情一区在线| 国产综合香蕉五月婷在线| 国产麻豆综合| 国产精品一区一区三区| 久色成人在线| 国产三级精品三级| 国产一区在线播放| 国产手机视频一区二区| 国产精品视频精品| 国产一区二区欧美| 国产精品第一页第二页第三页| 黄色成人免费网站| 国产精品扒开腿做爽爽爽视频| 久久综合伊人77777尤物| 欧美人与禽猛交乱配视频| 一区二区三区精品视频在线观看| 久久激情中文| 国产精品av久久久久久麻豆网| 午夜精品久久久久久久久| 国产精品久久久久aaaa九色| 久久久久久久久久久久久女国产乱| 免费在线成人av| 欧美精品播放| 欧美jizz19hd性欧美| 亚洲一区二区三区在线播放| 久久综合九色99| 欧美日本一道本| 久久五月天婷婷| 欧美精品国产一区二区| 国产欧美精品久久| 欧美亚洲一区在线| 国内精品**久久毛片app| 久久久久久午夜| 亚洲精品中文字幕在线观看| 亚洲精品女人| 欧美日韩国产免费| 欧美日韩高清不卡| 欧美另类在线播放| 国产亚洲在线| 国产精品一级二级三级| 欧美在线视频全部完| 欧美日韩国产色综合一二三四| 一区二区欧美在线观看| 亚洲一级二级在线| 韩国av一区二区三区在线观看| 欧美一区二区三区日韩视频| 久久成人免费网| 国产精品网站一区| 亚洲国产一成人久久精品| 国产精品丝袜久久久久久app| 精品9999| 国产精品日韩久久久| 久久亚洲综合| 欧美日韩亚洲一区二| 精久久久久久| 亚洲精品一区在线观看香蕉| 亚洲午夜久久久久久久久电影网| 国产亚洲欧美日韩美女| 亚洲精品九九| 亚洲欧美成人精品| 国产综合香蕉五月婷在线| 一本到12不卡视频在线dvd| aaa亚洲精品一二三区| 亚洲午夜av电影| 国产精品分类| 久久亚洲捆绑美女| 久久久噜噜噜久久中文字免| 美女视频网站黄色亚洲| 美女日韩在线中文字幕| 亚洲日本理论电影| 亚洲欧美另类在线观看| 国内外成人免费激情在线视频| 欧美日本韩国一区二区三区| 国产精品午夜在线| 亚洲美女少妇无套啪啪呻吟| 裸体歌舞表演一区二区| 久久久久久久网| 亚洲欧美精品在线| 亚洲欧美欧美一区二区三区| 男男成人高潮片免费网站| 国产三区二区一区久久| 亚洲欧美日韩国产综合精品二区| 亚洲嫩草精品久久| 亚洲欧洲日韩综合二区| 欧美国产三级| 欧美日韩国产在线播放| 亚洲一区欧美二区| 1000精品久久久久久久久| 欧美激情精品久久久久久免费印度| 日韩视频一区二区三区在线播放| 欧美婷婷在线| 激情久久久久久久久久久久久久久久| 亚洲第一页在线| 日韩一级精品视频在线观看| 午夜精品短视频| 国产麻豆午夜三级精品| 亚洲欧美三级在线| 欧美大片第1页| 午夜视频一区| 国产亚洲一区二区在线观看| 国产一区亚洲| 欧美日韩dvd在线观看| 亚洲日本中文字幕区| 免费亚洲一区| 亚洲三级网站| 欧美日韩亚洲精品内裤| 国产日韩1区| 午夜精品美女久久久久av福利| 欧美在线观看www| 夜夜夜久久久| 国产精品无码永久免费888| 亚洲特色特黄| 国产欧美va欧美va香蕉在| 在线精品视频一区二区| 国产精品高清网站| 亚洲精品视频免费在线观看| 国产亚洲一级高清| 久久成人18免费网站| 中日韩美女免费视频网站在线观看| 亚洲欧美激情一区| 在线视频精品一| 久热国产精品| 国产欧美日韩综合一区在线播放| 亚洲一区二区影院| 亚洲毛片视频| 国产日韩av一区二区| 欧美日韩亚洲综合在线| 国产亚洲观看| 国产精品久久7| 日韩视频一区二区在线观看| 影院欧美亚洲| 欧美成人高清| 午夜精品福利一区二区三区av| av成人黄色| 国产一区二区精品久久99| 欧美日韩精品一区| 亚洲欧美日韩精品一区二区| 亚洲一区在线观看视频| 国产永久精品大片wwwapp| 一本色道久久加勒比精品| 麻豆乱码国产一区二区三区| 亚洲福利小视频| 欧美成人精精品一区二区频| 国产精品久久一级| 精品成人a区在线观看| 欧美国产日韩一区二区在线观看| 欧美日韩国产高清视频| 美女国内精品自产拍在线播放| 国产精品美女久久久久久2018| 亚洲夜晚福利在线观看| 欧美在线观看一二区| 久久婷婷国产麻豆91天堂| 亚洲欧洲精品成人久久奇米网| 欧美日韩影院| 久久字幕精品一区| 久久久一二三| 国产精品久久久久久久久久直播| 国产欧美日韩综合一区在线观看| 欧美成人免费在线观看| 狠狠色丁香久久婷婷综合_中| 一本一本久久a久久精品牛牛影视| 欧美视频网址| 日韩视频免费观看高清在线视频| 亚洲三级视频在线观看| 国产精品少妇自拍| 欧美一区二区三区在线观看| 欧美一区视频在线| 午夜视频一区在线观看| 久久午夜羞羞影院免费观看| 极品少妇一区二区三区精品视频| 欧美电影专区| 亚洲第一中文字幕在线观看| 国产精品一区在线观看| 久久久久成人网| 亚洲欧美卡通另类91av| 一区二区三区精品| 亚洲国产精品成人久久综合一区| 国产在线精品二区| 国产精品国产三级国产| 国产精品欧美日韩久久| 国产日韩欧美一区在线| 在线日韩欧美视频| 欧美日韩和欧美的一区二区| 欧美精品成人| 欧美激情免费在线| 国产一区二区日韩精品欧美精品| 性欧美18~19sex高清播放| 亚洲一区二区三区免费观看| 黄色资源网久久资源365| 亚洲一二三区视频在线观看| 国产精品国产三级国产a| 国产欧美高清| 一区二区精品| 国产精品素人视频| 欧美美女bb生活片| 一区二区三区中文在线观看| 亚洲精品一二三区| 国产精品第2页| 狠狠色伊人亚洲综合成人| 久久久久久一区二区| 亚洲在线观看| 欧美日韩精品一区二区在线播放| 在线观看欧美视频| 国产综合欧美在线看| 久久av老司机精品网站导航| 狠色狠色综合久久| 亚洲三级性片| 欧美一区在线看| 欧美国产精品久久| 亚洲日本乱码在线观看| 久久综合一区二区三区| 国产综合在线看| 国产精品一区二区视频| 欧美成人官网二区| 欧美视频在线视频| 欧美母乳在线| 亚洲砖区区免费| 亚洲欧美在线观看| 欧美伊久线香蕉线新在线| 久久蜜桃香蕉精品一区二区三区| 亚洲日韩第九十九页| 亚洲欧美综合精品久久成人| 日韩写真在线| 宅男噜噜噜66国产日韩在线观看| 亚洲色无码播放| 午夜精品视频在线观看一区二区| 最新69国产成人精品视频免费| 又紧又大又爽精品一区二区| 久久综合给合久久狠狠狠97色69| 欧美va天堂在线| 伊人久久婷婷| 国产亚洲精品资源在线26u| 亚洲高清免费| 亚洲欧美中文日韩v在线观看| 99视频国产精品免费观看| 欧美日韩网站| 亚洲免费视频在线观看| 性感少妇一区| 国产一区二区三区四区五区美女| 国产日韩综合一区二区性色av| 亚洲一区二区伦理| 国外精品视频| 亚洲大胆人体在线| 在线观看视频欧美| 亚洲精品免费在线|