《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > N層向量空間模型在Web信息檢索中的應用
N層向量空間模型在Web信息檢索中的應用
劉志為 何丕廉 孫越恒 鄭小慎
天津大學電子信息工程學院(300072)
摘要: 在傳統向量空間模型的基礎上,提出一種新的信息檢索算法模型——N層向量模型。此模型應用在Web信息檢索上,能較好地適應文檔集合的動態擴充。
Abstract:
Key words :

摘   要: 在傳統向量空間模型的基礎上,提出一種新的信息檢索算法模型——N層向量模型。此模型應用在Web信息檢索上,能較好地適應文檔集合的動態擴充。
關鍵詞: 搜索引擎  向量空間模型  查準率  查全率

  Internet使人類社會步入了以網絡為中心的信息時代。隨著Web信息爆炸性的增長,如何從大量的信息中迅速、有效、準確地提取所需信息已成為一個極富挑戰性的課題,并已成為學術界和企業界十分關注的問題。
  半個多世紀以來,人們提出了許多種信息檢索的算法模型。Salton等人提出的一種向量空間模型的算法是使用TFIDF將文檔轉化為向量形式,其計算簡單并且有效,因此得到了較廣泛的應用。在經典的向量空間檢索模型的算法中,文檔和查詢都是用其所包含的特征項(通常認為以詞為特征項比較合理)組成的向量來表示的,并且用文檔與查詢的向量之間夾角的余弦作為相似性的度量,夾角越小,相似度越大。針對特定的查詢向量,比較它與所有文檔向量的相似度,并依相似度將文檔降序排序,提交檢索結果。這種方法具有簡單直觀、處理速度快等優點。但是文檔集合中特征項的數量遠遠大于每一篇文檔或查詢中特征項的個數,因此文檔和查詢的向量表示形式中的大部分項都為零。這些零項將會在計算特征項的權重和相似度時帶來很大的時間和空間復雜度,導致數據稀疏現象。另外在特征項抽取以及查詢匹配過程中,同一個特征項出現在文檔的不同區域時,它所表達文檔內容的能力是不同的。而且在文檔同一區域,不同的特征項所表達文檔內容的能力也是有差別的。使用傳統的向量空間模型則會認為這些特征項所表達文檔的能力完全相同,不能加以區分。
  本文在傳統向量空間模型的基礎上提出一種新的檢索方法,將N層向量空間模型應用在Web信息檢索上,使之能較好地適應文檔集合的動態擴充。理論分析和實驗結果表明,此方法能夠進一步提高向量空間模型的性能,節省存儲空間,加快檢索速度,具有較高的精度和召回率。
1  向量空間模型
1.1 傳統向量空間模型
  向量空間模型的出發點是:每篇文檔和查詢都包含一些用概念詞表達的、揭示其內容的獨立屬性,而每個屬性都可以看成是概念空間的一個維數。因此,文檔和查詢就可以表示為這些屬性的集合,從而忽略了文本結構中段落、句子及詞語之間的復雜關系。這樣,文檔和查詢可以分別用空間的一個點表示,并且文檔矢量與查詢矢量之間就存在空間上的不同距離,而這種距離關系在信息檢索中的意義就是文檔與查詢之間的相似度。所以,文檔與查詢之間的相似度可以用矢量間的距離來衡量。相似度的計算方法有很多種,本文采用余弦系數法,即用二個矢量之間的夾角的余弦來表示文檔與查詢間的相關度。夾角越大,距離越遠,余弦越小,相關度越小,反之相關度越大。下面介紹向量空間模型的量化方法。
  tfij為特征項tj在文檔di中出現的頻率;dfj為在整個文檔集中,包含特征項tj的文檔數;idfj為反轉文檔頻數,其值為:

  可見,傳統的向量空間模型是以文本特征項的頻率tf和反轉文檔頻率idf作為其量化基礎的。其乘積作為特征項的權重,再通過計算文檔與查詢之間的相似度即可判斷文檔與查詢是否相關。權重值大的特征項是那些在文檔中出現頻率足夠高,但在整個文檔集的其他文檔中出現頻率足夠少的詞語,也是對區別文檔最有意義的詞語。
1.2 N層向量空間模型
  將一篇文檔從組織結構上劃分為N層,基于每層的文本內容建立相應的特征項向量和權值。其中特征項抽取和權重計算等同傳統向量空間模型相同。這樣,對于文檔進行N層劃分得到的向量空間模型就成為N層向量空間模型。
  本文針對Web信息檢索進行考慮,由于Web頁面的特殊格式,要求一篇文檔最少是由指向該文檔的鏈接、文檔標題和文檔正文三部分組成。而這三部分的內容對于這篇文檔的表達能力是不同的。鏈接的文字是吸引別人點擊文檔進行閱讀的通道,所以鏈接的內容表達文檔的能力最強,其次是標題,正文的內容表達文檔的能力最弱。
  因此,將N層向量空間模型應用在Web信息檢索時,可將一篇Web文檔按照指向文檔的鏈接、標題和正文劃分成3層(若Web頁面中有<meta keyword>等標記的關鍵字部分,則可劃分為4層向量空間模型。)。
2  應用N層向量空間模型進行Web信息檢索
2.1 文本向量表示形式的改進 
  向量空間模型在建完索引以后,要根據每一個特征項求其對于每一篇文檔和查詢的權重值。其計算量非常大,并且每一篇文檔和查詢的向量表示式為,其中大多數項都為零,所以導致了數據稀疏現象。另外由于Web頁面的超鏈性(hyperlink),頁面上顯示的信息有很多是和本頁內容無關的,例如別的頁面的鏈接、版權信息、欄目導航等,在每個頁面上都有重復出現,這干擾了相似度計算。為解決這些問題,首先引入停用詞表,例如文檔中很多不能說明文檔內容的語法詞,還有虛詞、感嘆詞、連詞等或各個文檔共有的詞,所有這些詞作為描述文檔的向量效率是非常低的。因此可以考慮降維處理,把它們作為停用詞,不計算其權重;其次,采用壓縮矩陣的辦法來解決數據稀疏問題,定義文檔和查詢的向量表示形式為:<……,(ti,ωdi),……>,其中ti為第i個特征項,ωdi為其對應的權重值且ωdi≠0。這樣既減少了計算量,又加快了計算速度,同時節省了存儲空間。
2.2 特征項頻率統計的改進
  在統計每個區域的特征項頻率得到tfij后,要乘以一個反映其重要程度的比例系數來加以修正和調整,則特征項tj在文檔di中出現的頻率為:
  

  其中:tfiji為第i個區域的頻率(i為1、2、3時分別對應鏈接區域、標題區域、正文區域),α>β>γ≥1為比例系數。
  同樣,在文檔同一區域中,不同的特征項所表達文檔內容的能力也是有差別的。例如同在正文區域的不同的特征項所代表文檔的內容就有可能不同。在計算特征項頻率tfij時再乘以一個比例因子log2(M/mi),其中M為該特征項在本文檔中共出現的次數,mi為該特征項在文檔第i次出現的次數。這樣,特征項tj在文檔di中出現的頻率調整為:

2.3 傳統向量空間模型與N層向量空間模型的算法復雜度比較
  表1為傳統向量空間模型與N層向量空間模型的算法復雜度比較結果。

3  實驗設置
  (1)信息檢索實驗系統。信息檢索實驗系統選用了Smart系統。Smart系統是基于向量空間檢索模型實現的信息檢索系統。在本實驗中,為便于實現對向量空間模型算法的修改,使用的是經過修改的Smart信息檢索系統。
  (2)測試集。測試集分為文檔和查詢(query)二部分:文檔部分采用新浪網站(www.sina.com.cn)的新聞部分Web版(32,145篇)。查詢部分使用新浪網站的新聞討論標題,共50個。
  (3)評價方法。本系統使用精度和召回率來評價。精度是檢索出來的相關文檔數和檢索出來的總文檔數的比值;召回率是檢索出來的相關文檔數和總的相關文檔數的比值。通常,召回率越高,精度越低;反之精度越高,召回率越低。所以最有說服力的是11個點的平均精度。世界上最權威的文本檢索評測會議TREC(Text Retrieval Conference)的評測依據就是這個值。本系統將只提供這個值。
4  實驗結果
  這里對傳統的向量空間模型算法和改進后的向量空間算法進行了比較,并統計了對應于每一條查詢的11個點處的平均精度值。其結果如表2所示。


  因為平均精度值僅僅是11個點處的精度值的平均值,為了進一步說明問題,圖1給出了這幾次檢索的精度-召回率曲線。
 

  從圖1中可以看出,改進向量空間模型在索引時間和精度上都要優于傳統向量空間,性能有了很大的提高。

  本文提出了一種應用N層向量空間模型算法用于Web信息檢索的辦法。理論分析和實驗結果表明,改進后的方法大大提高了Web信息檢索的性能,節省了存儲空間,加快了計算速度,具有較高的精度和召回率。
參考文獻
1   Salton G.The SMART retrieval system-experiments in automatic document processing.USA:Prentice Hall,1971
2   陶躍華.基于向量的相似度計算方案.云南師范大學學報,2001;21(10)
3   陸玉昌,魯明羽.向量空間法中單詞權重函數的分析和構造.計算機研究與發展,2002;39(10)
4   劉芳,盧正鼎.有效地檢索HTMl文檔.小型微型計算機系統,2000;21(9)
 

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          亚洲欧洲三级电影| 国产日韩欧美亚洲一区| 亚洲高清精品中出| 免费在线亚洲欧美| 91久久精品美女高潮| 欧美午夜在线| 久久久亚洲国产美女国产盗摄| 国产精品大片wwwwww| 久久精品视频在线看| 国产精品入口尤物| 韩国女主播一区| 欧美日韩在线观看一区二区三区| 亚洲欧美日韩国产精品| 在线观看国产精品淫| 亚洲欧美久久久| 久久久久久有精品国产| 香蕉成人久久| 国产精品久久久久久久久久尿| 久久亚洲精品视频| 亚洲国产另类精品专区| 午夜在线精品偷拍| 国产精品成人免费视频| 国产喷白浆一区二区三区| 亚洲制服av| 久久狠狠一本精品综合网| 欧美日韩视频在线一区二区观看视频| 午夜在线一区| 国产女人aaa级久久久级| 亚洲精品无人区| 久久久一本精品99久久精品66| 欧美成人在线免费视频| 日韩手机在线导航| 欧美精品在线看| 久久国产精品久久久| 久久一综合视频| 午夜精品99久久免费| 香蕉av福利精品导航| 嫩草国产精品入口| 亚洲第一区在线观看| 亚洲欧美国产日韩天堂区| 国产嫩草一区二区三区在线观看| 欧美在线观看网站| 国产区亚洲区欧美区| 午夜精品福利在线| 国产精品久久久久一区二区三区| 蜜臀久久久99精品久久久久久| 欧美日韩亚洲综合| 极品少妇一区二区三区精品视频| 99精品黄色片免费大全| 国产精品麻豆欧美日韩ww| 久久久精品一区二区三区| 影音欧美亚洲| 午夜精品亚洲一区二区三区嫩草| 久久综合伊人77777麻豆| 国产伪娘ts一区| 亚洲黄色成人| 欧美成人在线网站| 美女露胸一区二区三区| 日韩午夜激情av| 亚洲永久视频| 一本久久综合| 欧美日韩亚洲天堂| 国产精品白丝av嫩草影院| 亚洲激情第一区| 亚洲成人直播| 亚洲小说区图片区| 欧美精品一区在线观看| 欧美亚洲免费电影| 欧美日韩国产综合新一区| 在线综合亚洲| 亚洲清纯自拍| 国产精品99久久久久久久久| 日韩视频中文| 国产精品初高中精品久久| 最新日韩av| 亚洲国产婷婷香蕉久久久久久| 欧美ab在线视频| 欧美日韩国产一区二区三区地区| 欧美福利网址| 亚洲国产一成人久久精品| 国产亚洲一区二区精品| 日韩特黄影片| 欧美激情亚洲精品| 国产日韩在线播放| 日韩一级视频免费观看在线| 久久精品国产精品亚洲精品| 亚洲欧美日本国产专区一区| 国产精品美女久久久浪潮软件| 欧美日韩三级| 欧美日韩中文字幕综合视频| 亚洲欧美国产精品专区久久| 欧美大片在线观看| 欧美影院一区| 国内视频精品| 国产精品对白刺激久久久| 欧美理论电影网| 99xxxx成人网| 亚洲一区二区三区视频播放| 亚洲网友自拍| 欧美啪啪成人vr| 久久精品av麻豆的观看方式| 国产精品伦子伦免费视频| 午夜欧美视频| 国产精品一区二区三区观看| 欧美一进一出视频| 亚洲欧美电影院| 亚洲欧美在线一区二区| 欧美激情网友自拍| 欧美成人免费va影院高清| 欧美精品激情在线| 欧美国产在线观看| 亚洲欧洲一区二区在线观看| 亚洲国产小视频| 亚洲视频在线视频| 欧美不卡激情三级在线观看| 91久久在线观看| 免费高清在线视频一区·| 在线观看三级视频欧美| 欧美婷婷六月丁香综合色| 久久精品国产第一区二区三区| 欧美日韩一区二区三区| 久久精品水蜜桃av综合天堂| 亚洲啪啪91| 亚洲一区二区三区四区五区午夜| 午夜免费电影一区在线观看| 好看不卡的中文字幕| 久久精品在这里| 久久精品国产亚洲aⅴ| 亚洲午夜一区二区| 久久久精品一品道一区| 国产精品免费区二区三区观看| 韩国在线一区| 欧美特黄a级高清免费大片a级| 欧美日韩精品一区二区三区| 国产一区二区福利| 国产精品久久久久国产精品日日| 国产一区二区三区在线播放免费观看| 国产视频久久久久| 在线亚洲激情| 欧美日韩亚洲在线| 99国产麻豆精品| 久久黄色小说| 国产欧美va欧美不卡在线| 久久综合色播五月| 国产色爱av资源综合区| 欧美二区在线观看| 91久久精品国产91性色tv| 欧美一区二区高清在线观看| 午夜在线精品偷拍| 国产亚洲欧洲| 国产精品老女人精品视频| 久久亚洲精品中文字幕冲田杏梨| 亚洲欧美日韩成人| 国精产品99永久一区一区| 激情亚洲成人| 国产女主播一区二区| 国产乱码精品一区二区三区av| 亚洲欧美久久久| 国产日韩一区二区三区在线| 久久亚洲精品中文字幕冲田杏梨| 欧美日韩亚洲综合| 亚洲精品视频免费在线观看| 久久国产精品色婷婷| 久久av老司机精品网站导航| 国产日韩精品一区二区三区在线| 激情综合五月天| 蜜桃av一区二区三区| 久久精品国产免费观看| 国产亚洲免费的视频看| 亚洲一区视频在线观看视频| 国产亚洲综合精品| 日韩一二在线观看| 国产精品qvod| 欧美午夜久久久| 欧美精品久久久久久久久老牛影院| 在线观看视频免费一区二区三区| 一区二区三区产品免费精品久久75| 免费精品视频| 久久精品一区二区三区不卡牛牛| 亚洲一本视频| 欧美专区日韩视频| 亚洲福利视频三区| 久久综合九九| 樱桃视频在线观看一区| 亚洲国语精品自产拍在线观看| 国产精品一区在线播放| 午夜精品成人在线| 一区在线免费| 欧美日本韩国在线| 亚洲天堂av高清| 国产精品呻吟| 99精品国产热久久91蜜凸| 99视频热这里只有精品免费| 国产精品青草久久久久福利99| 欧美剧在线观看| 久久精品国产亚洲a| 久久精品亚洲一区| 亚洲国产91精品在线观看| 国内久久视频| 欧美人成免费网站| 亚洲人成人77777线观看| 亚洲国产日韩欧美在线动漫| 欧美成人日本| 国产精品二区二区三区| 欧美日韩的一区二区| 亚洲乱码一区二区| 性久久久久久| 欧美资源在线观看| 亚洲国产精品小视频| 在线观看亚洲专区| 欧美日本在线视频| 国产精品久久久久久久免费软件| 很黄很黄激情成人| 欧美黄污视频| 久久精品国产亚洲精品| 99精品视频免费| 亚洲激情在线| 欧美大片在线看免费观看| 欧美国产乱视频| 蜜臀99久久精品久久久久久软件| 亚洲观看高清完整版在线观看| 国产精品日韩久久久| 先锋资源久久| 久久夜色精品国产欧美乱极品| 亚洲视频欧洲视频| 欧美激情一区二区三区四区| 亚洲综合日韩中文字幕v在线| 亚洲欧美日韩在线观看a三区| 鲁大师影院一区二区三区| 欧美日韩精品福利| 欧美日韩欧美一区二区| 欧美日韩精品在线播放| 亚洲在线视频一区| 国产精品久久久久国产a级| 欧美丰满高潮xxxx喷水动漫| 欧美好骚综合网| 亚洲日韩欧美视频一区| 日韩一级成人av| 国产欧美一区二区视频| 国产日韩欧美一区在线| 亚洲女性喷水在线观看一区| 激情自拍一区| 日韩亚洲欧美高清| 欧美成人官网二区| 欧美先锋影音| 亚洲国产专区| 欧美在线二区| 在线看片第一页欧美| 亚洲一级电影| 欧美片在线观看| 欧美一区二区播放| 亚洲国产精品传媒在线观看| 欧美午夜视频| 午夜精品成人在线视频| 国产欧亚日韩视频| 99精品免费视频| 亚洲人永久免费| 国产精品户外野外| 久久精品女人| 亚洲专区一区| 欧美亚洲免费电影| 久久精品av麻豆的观看方式| 欧美屁股在线| 免费永久网站黄欧美| 亚洲免费激情| 久久免费黄色| 久久婷婷麻豆| 黄色成人片子| 先锋a资源在线看亚洲| 一本色道久久综合亚洲精品高清| 国产欧美精品在线观看| 亚洲作爱视频| 在线一区二区三区做爰视频网站| 韩国成人精品a∨在线观看| 欧美午夜精品久久久| 国产精品色婷婷| 久久久五月天| 免费观看不卡av| 欧美超级免费视 在线| 国产精品久久国产三级国电话系列| 国产亚洲亚洲| 国产精品乱码一区二三区小蝌蚪| 欧美日韩一区二区欧美激情| 国产精品亚洲视频| 日韩午夜中文字幕| 在线一区二区三区四区| 国产精品一二三四| 亚洲乱码一区二区| 亚洲国产精品成人综合| 国产精品久久久久99| 国产欧美在线播放| 国产精品久久久久一区二区三区共| 欧美剧在线免费观看网站| 久久久亚洲精品一区二区三区| 欧美成人精品三级在线观看| 亚洲视频欧美视频| 亚洲经典三级| 欧美精品色网| 欧美日韩国产天堂| 国产亚洲激情视频在线| 亚洲午夜电影网| 一区二区视频免费完整版观看| 久久综合色天天久久综合图片| 亚洲综合成人在线| 亚洲精品1区| 老司机67194精品线观看| 欧美在线日韩精品| 久久久亚洲欧洲日产国码αv| 欧美日韩网站| 欧美国产另类| 欧美激情综合亚洲一二区| 亚洲国产精品视频一区| 在线国产精品一区| 国产精品久久久久久久久婷婷| 欧美日韩黄视频| 夜夜嗨av一区二区三区中文字幕| 国内精品视频久久| 牛牛国产精品| 欧美日韩人人澡狠狠躁视频| 亚洲成色999久久网站| 欧美激情aⅴ一区二区三区| 中日韩在线视频| 国产精品久久福利| 午夜精品成人在线| 国产精品一区二区三区四区| 一本久久青青| 日韩网站在线| 蜜臀99久久精品久久久久久软件|