《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 網頁去重的改進算法
網頁去重的改進算法
來源:微型機與應用2011年第12期
王 靜1, 劉觀寧2,張鈺輝1
(1. 西安電子科技大學 計算機學院, 陜西 西安 710071; 2. 安徽省技術創新服務中心,
摘要: 針對網頁內容相似重復的特點,提出了一種改進算法對網頁進行去重處理。該方法能夠有效地對網頁進行去重,并能對網頁信息進行冗余識別處理。實驗結果表明,與原有網頁去重算法相比,該算法的執行效果提高了14.3%,對網頁去重有了很明顯的改善。
Abstract:
Key words :

摘  要: 針對網頁內容相似重復的特點,提出了一種改進算法對網頁進行去重處理。該方法能夠有效地對網頁進行去重,并能對網頁信息進行冗余識別處理。實驗結果表明,與原有網頁去重算法相比,該算法的執行效果提高了14.3%,對網頁去重有了很明顯的改善。
關鍵詞: 網頁去重; 特征提取; 特征表示

    隨著互聯網的高速發展,Web已經成為最大的信息來源。但是如何獲取這些Web信息為我所用則是大家面臨的共同問題。網頁去重是Web網頁信息處理的重要環節,只有在對網頁的去重基礎上才可以準確處理網頁中的信息。本文介紹網頁的去重算法。
    提取出來的網頁,有些內容可能很相似,對于這些內容相似的網頁沒必要保存。針對系統中的人才招聘網頁更是必要:一個公司的招聘信息很可能會在數十家招聘網站以及自己公司主頁同時發布,所以有必要對這些網頁去重。

 對于網頁,ti就表示特征詞條,wi(d)就是文本d中ti的權值。用這個特征矢量來表示網頁文本。在網頁表示中,對任一特征而言有兩個因素影響特征的權值。一是詞在HTML文檔中出現的詞頻,另一個是該詞在該文檔中出現的位置。詞頻指的是某一詞條在文檔中出現的頻率, 頻率越高(當然不包括那些停用詞)則說明該詞越重要,越能代表該網頁的內容。對于網頁的主題包含在<title>和</title>之間的詞組比在<body>和</body>之間的詞組更具有代表性。因此本文提出了一種把該詞出現的頻率以及該詞出現的位置相結合的權重計算方法,能夠更有效地表示網頁。公式如下:



 (3) 聯合特征提取方法
 雖然X2統計量法是目前常用的特征提取方法之一,但該方法仍存在一些缺點,如它提高了在指定類中
  
    在網絡訓練過程開始時,定義獲勝節點的鄰域節點是為了能使二維輸出平面上相鄰輸出節點對相近的輸入模式類做出特別反應。假設本次獲勝節點為Nj,它在t時刻的鄰域節點用NEj表示,NEj(t)是包含以Nj中心而距離不超過某一半徑的所有節點。隨著訓練過程的進行,NEj(t)的半徑逐漸減小,最后只包含獲勝節點Nj本身,也就是說在訓練的起始階段不僅對獲勝節點做權值調整,而且也對其較大范圍內的幾何鄰節點做相應的調整,隨著訓練過程的繼續進行,與輸出節點相連的權向量也越來越接近其代表的模式類。這時,在對獲勝節點的權值進行比較細微的調整時,只對其幾何鄰節點比較近的節點進行相應的調整,直到最后只對獲勝節點本身做細微的調整。在訓練過程結束后,幾何上相近的輸出節點所連接的權向量既有聯系又有區別,這樣,保證了對某一類輸入模式獲勝節點能夠做出最大“響應”,而相鄰節點做出“較大”響應。幾何上相鄰節點代表特征上相近的模式類別。
 自組織特征映射學習過程包括描述最佳匹配神經元的選擇和描述權矢量的自適應變化過程兩部分。SOM輸出層通常由兩維m×m的網格節點組成,從輸入向量到網絡輸出層的每個節點j的權值向量定義為w,w和xi的維數是相同的,設為d,影射節點的數量從數十個到數千個決定SOM正確性和概化能力。

4 實驗結果
 采用以上介紹的算法,對一批數量在50~100之間的網頁集合進行去重處理,集合中包含了一與此內容完全相同或部分相同的網頁,將實驗結果與人工判別的結果進了比較,發現重復網頁的正確率達到95%以上,出現錯誤的判斷的是由于網頁轉載時出現錯碼等現象,有的是兩個重復網頁的段落排列差異太大。測試結果如圖1所示。


    本文將SOM的思想和方法引入中文Web文檔的聚類問題.探索向用戶提供高質量的網頁信息具有很強的理論意義和實際價值。但是,這種方法的不足之處是當網絡的連接過多、節點數目龐大時其計算量大,需要較長的學習時間。所以對于上述問題,筆者正在研究通過網絡剪枝技術,在不增加聚類錯誤的前提下,剪去多余的連接和節點,降低特征向量空間的維數從而減少計算工作量。
參考文獻
[1] LINSKER R. An application of the principle of maximum  information preservation to linear systems[Z]. Adv. Neural Inform. Process Systems, 1989,1.
[2] JUTTEN C, HERAULT J. Blind separation of sources,Part1:An adaptive algorithm based on neuromimetic architecture [J]. Signal Processing, 1991,24:10.
[3] COMMON P. Independent component analysis,a new concept[J]. Signal Processing, 1994,36:287-314.
[4] TONAZZINI A, BEDINI L, KURUOGLU E E. Blind separation of auto-correlated images from noisy images using  mrf models,. in 4th Int. Symp. on ICA and Blind Source Separation, Nara, Japan, 2003.
[5] SHULMAN D, HERVE J Y. Regularization of discontinuous  flow fields. in Proc. Workshop on Visual Motion, 1989:81-86.
[6] BOUMAN C, SAUER K. A generalised gaussian image model for edge-preserving MAP estimation,. IEEE Trans. Image Processing, vol. 2, pp. 296-310,1993.2704.
 

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          ●精品国产综合乱码久久久久| 亚洲男人av电影| 欧美激情1区2区| 欧美三级在线播放| 欧美日韩精品一区视频| 亚洲激情在线| 激情亚洲成人| 欧美在线1区| 欧美一区二区三区免费视频| 欧美日韩国产精品一区| 欧美日本在线一区| 午夜亚洲激情| 久久国产一二区| 亚洲精品日韩激情在线电影| 久久九九久精品国产免费直播| 欧美日韩在线第一页| 亚洲电影激情视频网站| 99在线观看免费视频精品观看| 亚洲天堂激情| 亚洲性视频网址| 国产一级精品aaaaa看| 国产一区二区三区不卡在线观看| 久久精品日产第一区二区| 欧美日韩在线不卡| 99精品欧美一区二区三区综合在线| 亚洲欧美一区二区三区久久| 精品动漫一区二区| 欧美日韩国产色综合一二三四| 在线日韩中文| 久久精品在线播放| 欧美日韩亚洲一区二区三区在线| 久久精品女人的天堂av| 欧美一级片一区| 香蕉成人啪国产精品视频综合网| 亚洲图片欧美日产| 午夜在线精品| 欧美色道久久88综合亚洲精品| 欧美精品日本| 久久综合色婷婷| 91久久精品国产91久久性色| 午夜精品久久久久久99热软件| 在线一区二区三区四区五区| 国语自产精品视频在线看一大j8| 久久人人九九| 蜜桃av久久久亚洲精品| 亚洲午夜激情免费视频| 亚洲午夜精品一区二区三区他趣| 亚洲国产综合91精品麻豆| 国产精品自拍三区| 久久精品理论片| 一本色道久久综合亚洲精品高清| 亚洲一区尤物| 欧美—级在线免费片| 久久高清一区| 欧美日韩国语| 在线色欧美三级视频| 欧美成人国产一区二区| 欧美人与性动交α欧美精品济南到| 久久精精品视频| 欧美日韩亚洲综合一区| 亚洲作爱视频| 欧美国产日韩xxxxx| 美女诱惑一区| 在线观看视频一区二区欧美日韩| 亚洲精品国产精品乱码不99按摩| 国产精品久久久久毛片软件| 国产视频一区在线观看一区免费| 亚洲一区二区三区在线| 午夜精品久久99蜜桃的功能介绍| 国产亚洲精品一区二555| 久久久久久午夜| 国产女精品视频网站免费| 亚洲欧美日韩成人| 欧美揉bbbbb揉bbbbb| 在线观看日韩专区| 国产精品一区二区三区乱码| 欧美日韩国产综合一区二区| 男女av一区三区二区色多| 久久久久久久综合狠狠综合| 欧美日韩成人精品| 亚洲欧洲日本在线| 一本一道久久综合狠狠老精东影业| 免费观看成人| 日韩一区二区精品葵司在线| 亚洲成人在线免费| 国产亚洲精品bt天堂精选| 久久久久看片| 精品999成人| 欧美在线播放一区二区| 在线免费观看日韩欧美| 在线观看日韩av| 国产精品少妇自拍| 国产精品女主播| 国产精品超碰97尤物18| 欧美视频在线一区| 在线观看成人网| 亚洲影院免费观看| 国产热re99久久6国产精品| 亚洲精品中文字| 国产精品二区三区四区| 国产美女扒开尿口久久久| 国产精品影片在线观看| 美女国内精品自产拍在线播放| 亚洲三级电影在线观看| 午夜欧美电影在线观看| 在线日本高清免费不卡| 亚洲欧美影音先锋| 欧美日韩中文精品| 亚洲一区二区在线观看视频| 国产乱理伦片在线观看夜一区| 在线观看成人一级片| 国产精品国产自产拍高清av| 免费亚洲电影| 亚洲美女视频在线免费观看| 欧美一区二区三区四区高清| 国产日韩精品入口| 在线播放亚洲| 久久国产成人| 久久亚洲精品伦理| 欧美在线播放一区二区| 久久久久久久网站| 欧美韩国日本综合| 欧美日韩在线免费视频| 欧美日韩亚洲视频| 亚洲欧美高清| 亚洲国产精品久久久久久女王| 激情综合视频| 欧美日韩午夜激情| 欧美午夜www高清视频| 亚洲国产日韩在线一区模特| 亚洲综合日韩| 欧美不卡激情三级在线观看| 日韩午夜免费视频| 老司机成人在线视频| 在线观看精品一区| 一区二区三区视频观看| 欧美精品三区| 一区二区日韩精品| 国产一二精品视频| 欧美日韩免费视频| 亚洲第一区在线观看| 国产欧美1区2区3区| 久久精品国产精品亚洲综合| 亚洲欧美在线视频观看| 欧美精品九九99久久| 韩国av一区二区三区四区| 欧美电影在线观看完整版| 亚洲综合色网站| 久久久蜜桃一区二区人| 欧美黄色小视频| 亚洲黄色性网站| 亚洲欧美国产77777| 午夜天堂精品久久久久| 欧美日韩一二区| 久久久青草婷婷精品综合日韩| 亚洲最新视频在线播放| 国产精品视频在线观看| 国产精品高潮粉嫩av| 欧美日韩高清免费| 99ri日韩精品视频| 国产欧美在线视频| 国产中文一区| 国产亚洲一区二区精品| 欧美一区深夜视频| 欧美激情精品久久久久久久变态| 久久精品国产精品| 在线观看视频一区二区欧美日韩| 在线激情影院一区| 99re热这里只有精品免费视频| 免费久久99精品国产自在现线| 国产伦精品一区二区三区高清| 久久国产加勒比精品无码| 亚洲精品日韩在线| 国产日韩精品一区| 国产综合色在线| 亚洲欧美福利一区二区| 亚洲一卡久久| 欧美视频第二页| 久久久久久电影| 欧美韩国日本综合| 精品成人国产| 国产主播喷水一区二区| 国产精品三级视频| 欧美视频不卡| 久久一区激情| 在线免费高清一区二区三区| 久久久久天天天天| 久久久一区二区三区| 欧美日韩精品久久久| 久久高清福利视频| 久久久久久久综合色一本| 欧美顶级少妇做爰| 麻豆精品视频在线观看| 日韩网站在线观看| 免费不卡欧美自拍视频| 蜜桃av一区二区在线观看| 影音国产精品| 亚洲最新视频在线| 国产日产精品一区二区三区四区的观看方式| 久久精品男女| 欧美日韩国产精品| 欧美剧在线免费观看网站| 日韩小视频在线观看专区| 国产性做久久久久久| 激情成人中文字幕| 亚洲系列中文字幕| 久久综合九色九九| 欧美日韩精品久久| 国产精自产拍久久久久久蜜| 噜噜噜噜噜久久久久久91| 亚洲高清视频在线| 久久精品亚洲一区二区三区浴池| 午夜激情久久久| 久久精品免费看| 亚洲嫩草精品久久| 国产麻豆一精品一av一免费| 亚洲一区免费网站| 欧美亚洲不卡| 久久深夜福利免费观看| 蜜桃久久精品乱码一区二区| 亚洲午夜电影| 亚洲精品免费一区二区三区| 国产欧美日韩在线| 欧美日韩精品二区| 亚洲男女毛片无遮挡| 国产综合在线视频| 欧美中文字幕在线播放| 亚洲精品色婷婷福利天堂| 亚洲国产综合视频在线观看| 欧美日韩一卡| 中国成人在线视频| 一本色道久久综合狠狠躁篇怎么玩| 黄网站色欧美视频| 国产精品人人做人人爽人人添| 久久影视三级福利片| 亚洲欧美日韩系列| 久久精品在这里| 小黄鸭精品密入口导航| 亚洲福利视频一区| 久久国产精品一区二区| 亚洲黄色一区二区三区| 亚洲一区二区四区| 国产美女搞久久| 久久成人综合视频| 久久久精品视频成人| 一区二区三区日韩欧美精品| 男女精品网站| 欧美第一黄色网| 极品尤物一区二区三区| 亚洲精品在线观| 国产日韩一区二区| 牛夜精品久久久久久久99黑人| 国产女主播视频一区二区| 欧美视频二区| 欧美国产亚洲精品久久久8v| 精品成人乱色一区二区| 激情视频亚洲| 亚洲国产一区二区三区a毛片| 亚洲欧美日韩国产一区二区三区| 亚洲天堂成人在线观看| 欧美激情综合五月色丁香小说| 国产一区二区三区在线观看免费| 亚洲欧洲一区二区三区在线观看| 免费试看一区| 国产伦精品一区二区三区视频黑人| 欧美国产亚洲视频| 影音先锋国产精品| 日韩网站在线看片你懂的| 欧美一区二区三区免费视频| 久久gogo国模裸体人体| 亚洲女女女同性video| 久久精品一区二区三区不卡| 欧美精品一区在线| 免费看的黄色欧美网站| 伊人成综合网伊人222| 久久久高清一区二区三区| 精品粉嫩aⅴ一区二区三区四区| 好看的日韩视频| 99在线热播精品免费99热| 欧美电影免费观看网站| 亚洲色图综合久久| 国产欧美va欧美不卡在线| 国产精品极品美女粉嫩高清在线| 欧美国产日韩在线| 在线观看不卡| 香蕉成人伊视频在线观看| 久久精品视频一| 亚洲经典视频在线观看| 亚洲黄色毛片| 久久亚洲一区| 日韩系列在线| 欧美久久久久久蜜桃| 尤物精品国产第一福利三区| 亚洲乱码精品一二三四区日韩在线| 欧美一区国产一区| 在线视频成人| 一区二区精品在线| 日韩一级黄色av| 亚洲一区二区精品在线观看| 亚洲激精日韩激精欧美精品| 欧美在线免费播放| 亚洲国产欧美在线| 狠色狠色综合久久| 欧美极品一区| 中国日韩欧美久久久久久久久| 久久国产精品一区二区三区四区| av不卡在线看| 亚洲国产乱码最新视频| 欧美网站在线观看| 日韩写真在线| 欧美中文字幕视频| 影音先锋日韩有码| 欧美美女日韩| 麻豆精品一区二区av白丝在线| 欧美麻豆久久久久久中文| 亚洲缚视频在线观看| 一区二区在线视频播放| 欧美日韩二区三区| 曰韩精品一区二区| 欧美精品在线一区二区| 国产亚洲精品一区二555| 亚洲一级在线观看| 欧美精品在线看| 亚洲三级色网| 欧美另类女人| 国产精品免费观看视频| 久久久精品视频成人| 国产乱理伦片在线观看夜一区|