《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種基于蟻群算法的主題爬蟲搜索策略
一種基于蟻群算法的主題爬蟲搜索策略
來源:微型機與應用2011年第1期
陳永彬,張 琢,張 添
(東北師范大學 理想信息技術研究院,吉林 長春 130024)
摘要: 針對目前主題爬蟲采用“啟發式”搜索策略出現的“近視”缺點,提出了一種基于蟻群算法的主題爬蟲搜索策略。該方法將蟻群算法引入到主題爬蟲的搜索策略中,并對蟻群算法中信息素的更新計算進行了改進,使其具有一定的自適應性。通過與其他搜索策略的比較實驗,結果表明該算法能夠更好地提高爬蟲的全局搜索能力。
Abstract:
Key words :

摘  要: 針對目前主題爬蟲采用“啟發式”搜索策略出現的“近視”缺點,提出了一種基于蟻群算法的主題爬蟲搜索策略。該方法將蟻群算法引入到主題爬蟲的搜索策略中,并對蟻群算法中信息素的更新計算進行了改進,使其具有一定的自適應性。通過與其他搜索策略的比較實驗,結果表明該算法能夠更好地提高爬蟲的全局搜索能力。
關鍵詞: 主題爬蟲;蟻群算法;搜索策略;信息素

    主題網絡爬蟲是根據一定的網頁分析算法,過濾與主題無關的鏈接,保留主題相關的鏈接并將其放入待抓取的超鏈接隊列中,然后根據一定的搜索策略從隊列中選擇下一步要抓取的網頁鏈接,并重復上述過程,直到達到系統的某一條件時停止。所有網絡爬蟲抓取的網頁將會被系統存儲,進行一定的分析、過濾,并建立索引[1]。相對于通用爬蟲,主題爬蟲搜索的內容只限于特定主題或專門領域,因而被通用網絡爬蟲廣泛采用的基于廣度或深度優先算法已不再適用。目前,主題網絡爬蟲通常采用啟發式搜索策略,每次選擇“最有價值”鏈接進行優先訪問,但是這類策略容易過早陷入Web搜索空間中局部最優子空間的陷阱,缺乏全局性,從而導致整體回報率不高[2]。
    蟻群算法不僅能夠智能搜索和全局優化,而且還具有魯棒性、正反饋、分布式計算、易于與其他算法結合等特點。利用正反饋原理,可以加快進化過程。分布式計算使該算法易于并行實現,個體之間不斷進行信息交流和傳遞,有利于找到較好的解,不容易陷入局部最優。易與多種啟發式算法結合,可改善算法的性能。穩健性強,故在基本蟻群算法模型的基礎上進行修改,便可用于其他問題。
    結合蟻群算法,本文針對主題爬蟲搜索策略上的不足,提出了一種基于蟻群算法的主題爬蟲搜索策略。由于對蟻群算法進行了改進,所以提出的算法還具有一定的自適應性。
1 蟻群算法模型
    蟻群算法是群集智能體現的一個典型例子,該算法是意大利學者Marco Dorigo[3]等人在1991年受螞蟻覓食行為的啟發而提出的。
    蟻群算法借鑒和吸收了現實世界中蟻群的行為特征:螞蟻屬于群居昆蟲,個體行為極其簡單,而群體行為卻很復雜。相互協作的一群螞蟻很容易找到從蟻巢到食物源的最短路徑。此外,螞蟻還能夠適應環境的變化,例如在蟻群的運動路線突然出現障礙物時,它們能夠很快地重新找到最優路徑。螞蟻個體之間在覓食過程中通過信息素來進行信息傳遞,信息素隨著時間的推移會逐漸揮發。螞蟻在覓食過程中能夠感知信息素的存在及其強度,并以此來指導自己的運動方向,傾向于朝著信息素強度高的方向移動,即選擇該路徑的概率與當時這條路徑上信息素強度成正比。信息素強度越高的路徑,選擇它的螞蟻就越多,則在該路徑上留下的信息素的強度就更大,而強度大的信息素又吸引更多的螞蟻,從而形成一種正反饋。通過這種反饋,使得大部分螞蟻都會走這個最佳路徑。
    正反饋的副作用就是當許多螞蟻都選中同一條路徑時,該路徑中的信息素量會迅速增大,從而使得多只螞蟻集中到某一條路徑上,造成一種堵塞和停滯現象,表現在使用蟻群算法解決問題時就容易導致早熟和局部收斂。
2 基于蟻群算法的搜索策略
2.1 算法思想

    本文提出了一種基于蟻群算法的主題爬蟲搜索策略,其基本思想是:在Web頁面中存在超文本頁面wi和wj,如果wi中有一個鏈接指向wj,那么處于wi的螞蟻自身將根據一定的條件決定是否從wi移動到wj。每個鏈接序列代表了一個可能的螞蟻移動路線。螞蟻個體之間在移動過程中通過信息素來進行信息傳遞。信息素在螞蟻爬行過程中會隨著時間的推移逐漸揮發。螞蟻在頁面之間的爬行被分為多個循環周期,在每個周期中,一個螞蟻在Web頁面間進行一系列的移動,直到探尋到目標資源并返回到源點為止。每完成一次爬行周期,蟻群對各路線上的信息素量進行更新。為解決蟻群算法的“早熟”和“局部收斂”問題,本文借鑒了參考文獻[4]中動態自適應的調整信息素的思想。
    假設V代表全體頁面集合,E代表由鏈接構成的路徑集合,則Web頁面(鏈接)構成有向圖G={V,E}。因為螞蟻在選擇下一個Web頁面時必須考慮其主題相關度,所以有向圖G中頁面Pk的主題相關度值可以參考PageRank算法公式。
    為方便表述,作如下定義[5]:


   其中c為常數。這樣,根據解的分布情況自適應地進行信息素量的更新,從而動態地調整各路徑上的信息素量強度,使螞蟻既不過分集中也不過分分散,從而避免了早熟和局部收斂,提高全局搜索能力[5]。
2.3 算法流程
    提出的基于蟻群算法的爬蟲搜索策略執行過程如下:

2.4 算法參數分析
    在蟻群算法的實現過程中,多個參數需要初始化設定。由蟻群算法的原理可知,不同參數的選擇能夠對蟻群算法的性能產生至關重要的影響[5]。目前對蟻群算法中參數的確定還沒有嚴格的理論基礎,所以以上諸式中出現的參數ηij、α、β和ρ通常用試驗方法來確定其最優組合。ηij表示由城市i轉移到城市j的期望程度,可根據某種啟發算法而定,例如可以取ηij=1/dij。α表示螞蟻在行進過程中所積累的信息素對它選擇路徑所起的作用程度。β是一個表示信息素重要程度的參數。信息激素的保留系數為ρ(0<ρ<1),它體現了信息素強度的持久性,而1-ρ則表示信息素的消逝程度。
    參考文獻[6]通過大量的實驗數值分析表明,當滿足0.01≤α≤0.3、3≤β≤6、0.1≤ρ≤0.3時,算法總體上有較好性能,達到的最優解與全局最優較接近,同時,所需的迭代次數也較少,不易陷入局部最優而導致算法停滯。
3 實驗
3.1 實驗說明

    為了驗證基于蟻群算法的主題爬蟲搜索策略比傳統的廣度優先算法和基于最佳優先搜索策略具有更好的全局搜索能力和自適應性,本文在Nutch爬蟲的基礎上構建了一個主題爬蟲。Nutch爬蟲具有可擴展和定制性。通過定義一個ACOCrawler插件來抓取特定主題的網頁[8]。實現以“物理教學資源”為主題,選取了國內三個教育網站為種子集(如表1所示),算法參變量設定如表2所示。

3.2 結果分析
    系統運行12個小時,共抓取3 360 000個網頁及資源。為了便于比較,分別對基于廣度優先算法和最佳優先搜索算法的搜索結果進行測試,統計三種搜索算法實現的爬蟲所搜索的關于物理教學資源的網頁及資源數,采用“相對回報率”來評價爬蟲的性能。相對回報率R的計算公式為:

    通過計算,可以得到三種算法性能比較圖,如圖1所示。

    由圖1可以看出,在三種搜索策略中,廣度優先算法的性能低于其他兩種“啟發式”算法。這兩種搜索策略在訪問了50%的頁面后,已經找到了70%以上的相關物理資源,這表明基于“啟發式”搜索策略具有優越性。
    基于蟻群算法的搜索策略性能比較顯著,除了在搜索初期其發現能力略低于基于最佳優先策略的搜索算法外,在其后的搜索中,新算法的性能明顯高于基于最佳優先策略的搜索算法。其原因在于,基于蟻群算法的搜索策略采用了一種最優選擇機制,一旦蟻群發現有好的全局最優個體,動態地更新路徑上的信息素,作為最優選擇路徑,從而避免了局部最優,因而整體回報率較高。
    本文針對現有主題爬蟲所采用搜索策略出現的一些問題,將蟻群搜索模型引入主題爬蟲搜索策略。實驗結果表明,基于蟻群算法的搜索策略與基于廣度優先搜索策略和基于最佳優先搜索策略相比,其在主題相關性上有比較明顯的優勢。通過對蟻群算法進行改進,能夠動態地調整信息素,從而也能夠較好地解決局部最優問題,提高了全局搜索的能力。但由于蟻群算法本身的一些缺陷,使得主題爬蟲在搜索效率上還有待提高,這是下一步要做的工作。
參考文獻
[1] 劉金紅,陸余良.主題網絡爬蟲研究綜述[J].計算機應用研究,2007(10):26-29.
[2] 李學勇,田立軍,譚義紅,等.一種基于非貪婪策略的網絡蜘蛛搜索算法[J].計算機與自動化,2004,23(2).
[3] DORIGO M, MANIEZZO V, COLORNI A. The ant system: optimization by a colony of cooperating agents[J]. IEEE Transactions on Systems, Man and Cybernetics—Part B, 1996, 26(1): 29-41.
[4] 李開榮,陳宏建,陳崚.一種動態自適應蟻群算法[J].計算機與自動化,2004,40(29):149-152.
[5] 陶劍文.基于蟻群計算的自適應Web檢索算法設計[J]. 計算機工程與應用,2007(15):163-165.
[6] 蔣玲艷,張軍,鐘樹鴻.蟻群算法的參數分析[J].計算機工程與應用,2006(13):31-35.
[7] MENCZER F, PANT G, SRINIVASAN N P. Topical Web crawler: evaluating adaptive algorithms[J]. ACM Transactions on Internet Technology, 2004(4): 378-419.
[8] 榮光,張化祥.一種DeepWeb爬蟲的設計與實現[J].計算機與現代化,2009(3):32-34.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          国产九区一区在线| 午夜伦理片一区| 国内外成人在线视频| 欧美视频久久| 亚洲欧美一区二区视频| 国产精品影片在线观看| 欧美精品18videos性欧美| 嫩草国产精品入口| 国产精品国产三级国产aⅴ9色| 久久精品卡一| 国产丝袜一区二区| 日韩午夜av| 亚洲乱码国产乱码精品精天堂| 欧美视频网址| 亚洲一级黄色片| 欧美日韩视频一区二区| 亚洲欧美区自拍先锋| 久久久97精品| 亚洲日本久久| 激情自拍一区| 老司机成人在线视频| 国产精品社区| 国产精品自拍网站| 久久久久免费| 亚洲精品视频在线观看网站| 最新日韩av| 欧美国产欧美亚洲国产日韩mv天天看完整| 鲁大师影院一区二区三区| 久久蜜桃精品| 欧美午夜精品| 亚洲理论电影网| 欧美一级在线视频| 欧美成人免费网站| 亚洲另类自拍| 久久精品二区| 欧美视频精品在线| 国产精品99久久久久久久久| 亚洲精品色婷婷福利天堂| 国产欧美日韩免费看aⅴ视频| 欧美激情精品久久久久久黑人| 亚洲性感美女99在线| 亚洲视频欧美视频| 亚洲成色精品| 亚洲精品久久久久| 亚洲欧美中文另类| 亚洲动漫精品| 久久精品国产第一区二区三区| 欧美视频一区二区三区在线观看| 国产精品久久久久77777| 亚洲综合日韩在线| 国产农村妇女精品一区二区| 在线看无码的免费网站| 国产日韩欧美视频| 国产日韩欧美夫妻视频在线观看| 亚洲毛片一区二区| 海角社区69精品视频| 一区二区三区视频观看| 亚洲欧美日本伦理| 亚洲日韩欧美一区二区在线| 国产亚洲欧美日韩日本| 国产精品久久久久久久久免费| 欧美极品一区| 亚洲精品免费看| 欧美/亚洲一区| 国产主播一区二区三区| 亚洲视频中文字幕| 欧美色区777第一页| 久久最新视频| 亚洲美女在线视频| 国产婷婷色一区二区三区在线| 欧美日韩在线观看视频| 亚洲黄一区二区| 欧美一区二区在线免费播放| 久久精品国产久精国产一老狼| 99国产精品国产精品毛片| 国产日韩精品视频一区| 亚洲一区二区在线播放| 久久理论片午夜琪琪电影网| 欧美一区国产在线| 久久成人一区| 国产欧美日韩另类一区| 国产一区二区精品| 亚洲人成网站999久久久综合| 麻豆9191精品国产| 极品少妇一区二区三区| 欧美激情成人在线视频| 久久黄色网页| 久久精品视频免费观看| 国产在线国偷精品产拍免费yy| 国产精品网曝门| 亚洲激情不卡| 欧美国产先锋| 亚洲免费电影在线| 久久精品人人做人人爽电影蜜月| 欧美大片91| 欧美激情精品久久久久久变态| 99ri日韩精品视频| 香蕉亚洲视频| 国产欧美精品一区aⅴ影院| 一区二区三区精密机械公司| 中国成人在线视频| 美女国产精品| 午夜一区二区三区不卡视频| 欧美激情视频一区二区三区免费| 最新69国产成人精品视频免费| 欧美国产精品日韩| 亚洲校园激情| 久久久精品国产99久久精品芒果| 国产区精品在线观看| 香蕉精品999视频一区二区| 亚洲精品一线二线三线无人区| 欧美日韩在线三级| 欧美高清不卡| 欧美日韩免费一区二区三区| 亚洲欧美日韩爽爽影院| 欧美日韩在线一区二区| 国产精品久久久久久一区二区三区| 韩日成人在线| 国产欧美日韩一区二区三区在线| 亚洲午夜免费福利视频| 久久免费国产| 国产精品v片在线观看不卡| 国产一区二区三区久久精品| 久久精品五月婷婷| 亚洲国产一区二区视频| 国产精品入口| 亚洲经典在线| 欧美精品综合| 久久久久久久一区二区| 欧美日韩午夜精品| 欧美xxxx在线观看| 亚洲国产二区| 国产日韩在线视频| 午夜欧美精品久久久久久久| 久久午夜电影| 久久精品道一区二区三区| 一区二区三区www| 国产欧美日韩在线视频| 久久亚洲国产精品一区二区| 国产精品女同互慰在线看| 亚洲精品少妇| 国产精品久久久久久久久久免费| 中文在线资源观看视频网站免费不卡| 在线亚洲欧美专区二区| 久久久亚洲欧洲日产国码αv| 亚洲欧洲三级电影| 久久亚洲私人国产精品va媚药| 国产婷婷97碰碰久久人人蜜臀| 欧美在线免费一级片| 欧美精品一区三区在线观看| 亚洲国产人成综合网站| 久久婷婷蜜乳一本欲蜜臀| 韩国三级在线一区| 国产精品综合av一区二区国产馆| 国产精品久久二区| 欧美日韩国产综合一区二区| 国产一区二区三区日韩欧美| 国产一区日韩二区欧美三区| 国内外成人免费激情在线视频| 国产亚洲欧美日韩日本| 国产女主播一区二区三区| 麻豆av一区二区三区| 亚洲一区二区在线免费观看视频| 国产精自产拍久久久久久| 亚洲激情影视| 欧美亚洲三区| 香蕉视频成人在线观看| 国内一区二区在线视频观看| 欧美精品一区二区三区四区| 久久久精品国产一区二区三区| 欧美黑人在线播放| 亚洲国产一区二区视频| 亚洲天堂成人在线视频| 国产欧美日韩专区发布| 欧美电影免费| 欧美日韩中文字幕日韩欧美| 久久精品91久久久久久再现| 亚洲电影免费在线| 欧美日一区二区三区在线观看国产免| 亚洲一区精品电影| 99re8这里有精品热视频免费| 一区久久精品| 欧美成人一区二区| 欧美激情一区二区三区四区| 美脚丝袜一区二区三区在线观看| 亚洲一区二区三区四区五区午夜| 黄色成人小视频| 欧美一区二区三区在线免费观看| 久久亚洲精品一区| 欧美日韩午夜| 国产欧美视频一区二区三区| 每日更新成人在线视频| 欧美精品粉嫩高潮一区二区| 欧美亚州韩日在线看免费版国语版| 亚洲精品国产精品久久清纯直播| 国产自产精品| 欧美一区二区视频在线| 国产精品精品视频| 亚洲精品你懂的| 国产手机视频精品| 久久久噜噜噜久久中文字幕色伊伊| 欧美极品一区| 久久免费精品日本久久中文字幕| 久久视频国产精品免费视频在线| 日韩亚洲精品视频| 亚洲欧洲日产国产综合网| 精品91免费| 一本久道久久综合婷婷鲸鱼| 国产精品成人在线观看| 欧美肉体xxxx裸体137大胆| 欧美jizzhd精品欧美巨大免费| 艳妇臀荡乳欲伦亚洲一区| 久久国产黑丝| 国产精品乱人伦一区二区| 在线观看日韩一区| 久久大综合网| 亚洲欧美另类在线观看| 亚洲一区二区三区精品在线观看| 美日韩免费视频| 欧美精品在线网站| 国产九九精品| 欧美日韩综合| 亚洲精华国产欧美| 亚洲肉体裸体xxxx137| 亚洲高清不卡一区| 免费高清在线一区| 久久精品99国产精品| 性欧美暴力猛交69hd| 欧美精品www| 国产精品video| 久久成人精品视频| 欧美激情乱人伦| 激情成人综合| 亚洲男人第一av网站| 久热re这里精品视频在线6| 久久久国产精品亚洲一区| 亚洲女与黑人做爰| 午夜久久久久久| 久久亚洲综合网| 一区视频在线| 欧美伦理一区二区| 亚洲深夜福利| 日韩天堂av| 久久看片网站| 一区二区动漫| 亚洲视频福利| 鲁大师成人一区二区三区| 亚洲国产成人一区| 欧美香蕉大胸在线视频观看| 在线成人黄色| 久久亚洲精品网站| 欧美专区在线观看| 亚洲精品综合精品自拍| 美女视频一区免费观看| 亚洲国产综合91精品麻豆| 亚洲无线一线二线三线区别av| 欧美国产视频一区二区| 伊人一区二区三区久久精品| 久久超碰97中文字幕| 99精品欧美一区二区三区| 亚洲欧美日韩国产另类专区| 欧美一二区视频| 裸体丰满少妇做受久久99精品| 欧美激情在线观看| 99香蕉国产精品偷在线观看| 欧美ab在线视频| 久久爱另类一区二区小说| 欧美日韩一区在线播放| 亚洲午夜女主播在线直播| 亚洲激情成人网| 国产噜噜噜噜噜久久久久久久久| 欧美日韩国产综合新一区| 蜜臀久久99精品久久久画质超高清| 国产精品美女久久久久久久| 午夜精品久久久久久久久久久久久| 国产精品theporn88| 亚洲美女淫视频| 在线看国产日韩| 欧美一级久久久久久久大片| 在线播放中文字幕一区| 欧美区国产区| 毛片精品免费在线观看| 国产亚洲欧洲997久久综合| 久久精品亚洲国产奇米99| 欧美大片第1页| 久久激情视频久久| 国产亚洲欧美一区在线观看| 国内自拍视频一区二区三区| 欧美日韩亚洲综合一区| 欧美日韩精品一区二区天天拍小说| 欧美日一区二区三区在线观看国产免| 欧美在线高清视频| 亚洲字幕在线观看| 亚洲欧美国产精品桃花| 国产一区二区三区久久久| 国产精品视频一| 蜜臀av性久久久久蜜臀aⅴ四虎| 久久精品1区| 好吊妞**欧美| 欧美电影免费| 99国产精品一区| 国产一区再线| 亚洲欧美一区二区视频| 国产亚洲欧美一级| 亚洲人成在线观看网站高清| 国产日韩精品一区二区三区| 国产精品乱人伦一区二区| 在线观看日韩一区| 欧美精品一区三区在线观看| 欧美国产1区2区| 亚洲国产99| 久久久综合免费视频| 久久久久久久高潮| 午夜在线视频一区二区区别| 亚洲国产精彩中文乱码av在线播放| 国产精品卡一卡二卡三| 久久精品夜色噜噜亚洲a∨| 欧美午夜影院| 国产三级欧美三级| 麻豆精品国产91久久久久久| 国产精品成人免费精品自在线观看| 日韩一区二区精品葵司在线| aa亚洲婷婷| 在线国产亚洲欧美| 国产精品亚洲综合久久| 亚洲精品久久久久久久久久久久| 怡红院精品视频在线观看极品| 欧美亚洲一区|