《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于維基百科的語義相關度算法研究綜述
基于維基百科的語義相關度算法研究綜述
2015年微型機與應用第14期
景雪芹,徐建良
(中國海洋大學 信息科學與工程學院,山東 青島 266100)
摘要: 在總結維基百科特點的基礎上,調研了國內外使用維基百科計算語義相關度的算法。根據這些算法的特點,對其進行了系統的分類,并列舉了每個分類下的經典算法。
Abstract:
Key words :

  摘  要: 在總結維基百科特點的基礎上,調研了國內外使用維基百科計算語義相關度算法。根據這些算法的特點,對其進行了系統的分類,并列舉了每個分類下的經典算法。

  關鍵詞: 維基百科;相關度;算法

0 引言

  相關度是指事物之間相關聯的程度,而語義相關度是指概念之間相關聯的程度。計算語義相關度是非常復雜的,因為它需要用到豐富的語義知識,也要對不同的關系給出不同的權重值。在語義信息處理的相關研究中,很多研究者利用語料庫的相關統計信息獲取語義相關度信息,也有研究者利用WordNet等語義網絡來衡量詞或者概念之間的語義相關度。近年來,很多研究都證明維基百科是計算語義相關度的一個好資源。

  最先利用維基百科進行語義相關度研究的是STRUBLE M和PONZETTO S P[1],他們把應用在WordNet上效果比較好的一些經典算法應用到維基百科中,實驗結果表明,在大數據集上,在維基百科的效果要好于在WordNet的效果。隨后,ZESCH J和GUREVYC I[2]對維基百科的分類圖和文檔圖進行了圖論分析并與GermaNet進行了比較,同樣證明了維基百科可以作為一種語義知識資源代替一些傳統的語義網絡,將自然語言處理的一些經典算法應用到維基百科中是可行的。

  本文對維基百科進行了研究,對利用維基百科計算語義相關度的算法進行了調研,最后總結了幾種典型算法的特點并進行了分類。

1 維基百科

  維基百科于2001年被發起,現在,它涵蓋了藝術、地理、歷史、自然科學等領域,包括了200多種語言的版本,注冊用戶達5000多萬。它作為互聯網上最大的最廣泛使用的免費的百科全書,擁有超過百萬的解釋頁面,更新速度快。本文從以下兩方面對維基百科進行系統的介紹。

  1.1 維基百科中的條目

  條目,即頁面,是維基百科基本的組成單位。為了提高一致性,條目的編輯需遵循一系列的編輯規則,其主要的規則有以下6條[3]:

 ?。?)一個條目只描述一個概念,一個概念只有一個條目與之對應;

  (2)條目的標題是簡潔的短語,類似于傳統敘詞表中敘詞;

 ?。?)同義詞通過重定向鏈接連接;

 ?。?)消歧義條目為用戶提供可選擇的多種語義;

 ?。?)條目的開始是對主題的簡單介紹,第一句定義了概念及其類型;

 ?。?)條目中有超鏈接,這些超鏈接表示了該條目與其他條目之間的關系。

  根據這些編輯規則,將維基百科中的條目分為:分類條目、重定向條目、消歧義條目以及解釋條目。其中分類條目是維基百科中的分類索引,重定向條目和消歧義條目對應規則(3)和(4),解釋條目對應編輯規則(1)。

  1.2 維基百科中的超鏈接

  普通的語料庫和網絡語料最大的不同點就是網絡語料庫具有超鏈接,而超鏈接提供了一個頁面跳轉到另一個頁面的功能。維基百科就是典型的網絡語料庫。維基百科鏈接結構密集,平均每個條目擁有20個超鏈接,而且超鏈接還蘊含了豐富的語義信息。一般按照超鏈接的方向把超鏈接分為兩大類:一類是前向鏈接,另一類是后向鏈接。如圖1所示,前向鏈接是指源頁面連接另外一個頁面的鏈接,后向鏈接是指一個頁面連接源頁面的鏈接。

001.jpg

  除此之外,也可以根據超鏈接所連接的頁面類型進行分類,分別為語言間的鏈接(Interlanguage Links)、分類與子類之間的鏈接(Category to Subcategory)、分類與解釋頁面之間的鏈接(Category to Article)、重定向頁面(Redirect to Article)與解釋頁面之間的鏈接(Article to Article)。根據這種分類可以初步判斷錨文本之間的關系(錨文本是超鏈接的文本部分,用戶通過點擊這個文本就可到達目標頁面)。

  2 基于維基百科的語義相關度算法

  2.1 基于統計學的語義相關度算法

  2.1.1 詞匯共現法

  詞匯共現法是基于統計學的方法來計算語義相關度的經典方法。由于詞匯共現在敘詞表構建的研究中已經被廣泛地證明是有效的,因此把它應用到維基百科中可能也是可行的。兩個詞匯的詞匯同現率可以用下面的公式進行粗略的定義:

  1.png

  其中,D是包含t1的文檔的集合。為了度量兩個詞的相關度,該方法使用了包含這兩個詞的文檔數。具體的比較經典的方法有共現文檔數方法(SD)[4]、文字覆蓋法(TO)。

  共現文檔數就是在一個較大的語料庫中利用詞出現的文檔數,如Jaccard公式:

  2.png

  其中,dc(i)、dc(j)分別表示包含鏈接i、j的文檔數,dc(i&j)表示既包含i也包含j的文檔數。

  文字覆蓋法就是通過在2個詞各自的定義文本中共同出現的文本來計算相關度。比較經典的算法有Lesk算法[5]。在維基百科中,可以尋找在解釋文檔中的共現詞并利用式(3)來計算:

 3.png

  其中,n表示文檔ta和tb中都出現的文本片段(可能是一個詞或連續的多個詞),mn表示每個片段的詞數,length(ta)和length(tb)表示兩個文檔的總詞數。

  2.1.2 鏈接共現法

  盡管上文中的詞匯共現法已被證明是有效的,但是由于語義分析的復雜性,自然語言處理仍然存在很多準確性的問題。所以有人提出了鏈接共現的方法,這種方法只使用語義網絡中的鏈接來避免自然語言處理中的準確率的問題。因為語義網絡是一個概念與鏈接的集合,所以使用鏈接同現法是有意義的。具體的公式和詞匯共現的公式的道理是一樣的,不同點只是使用文檔的鏈接代替詞匯。

  比較經典的鏈接共現的方法是GABRILOVICH E[6]提出的TF-IDF的方法。TF-IDF使用了兩個度量值:TF(Term Frequency)詞匯頻率和IDF(Inverse Document Frequency)后向文檔頻率。這種方法是通過計算維基百科頁面中鏈接的權值得到相應概念的向量,然后通過比較概念向量來計算兩個概念的相關度。一個文檔中鏈接的權值的計算公式如下:

  45.png

  其中,tf(l,d)表示在文檔d中鏈接l出現的次數,N表示維基百科中文檔的數量,df(l)是包含鏈接l的文檔的數量。簡單來說,權值隨著文檔d中鏈接出現的頻率遞增。但是總的來說,因為每個維基百科的頁面都有自己的URL而且都對應了一個概念,所以計算兩個鏈接的相關度等同于計算兩個概念的相關度。

  2.2 基于維基百科路徑的語義相關度算法

  維基百科網絡詞匯集,是一個由條目和超鏈接組成的集合,它的結構是一個有循環的圖,概念就是圖的節點,超鏈接就是圖的邊,所以它就可以用一個圖的形式來表示:G={V,E}(V:維基百科中的條目/概念集合,E:維基百科中超鏈接的集合)。在考慮如何計算任意一個條目對vi和vj之間的相關度時,NAKAYAMA K等人[7]假設影響它們之間相關度主要有以下兩個因素:

 ?。?)從條目vi到條目vj的路徑的數量;

  (2)每一條從條目vi到條目vj的路徑長度。

  如果有很多路徑可以從條目vi到達條目vj,那么它們之間的相關度相對較強。另外,兩個條目之間的相關度還受路徑長短的影響。換句話說,如果在圖G中從條目vi到達條目vj的路徑相對較短,那么它們之間的相關度要高于相對較長的。因此,如果從條目vi到達條目vj的所有路徑為P={p1,p2,...,pn},NAKAYAMA K將它們之間的PF(Path Frequency)定義為:

  6.png

  其中,d(lenpk)是一個以路徑pk的長度為變量的單調遞增函數,例如對數函數的單調遞增函數都可用作函數  d(lenpk)。

  而且根據統計發現,在計算相關度時必須考慮維基百科的鏈接結構的分布特征,例如這樣一種條目,有很多條目都擁有到達該條目的超鏈接。如果只是用PF的方法,那么這類條目會與很多條目具有較強的相關度。然而通常情況下該類條目對應的概念是普通的比較綜合的大眾的概念。因此,必須考慮這類條目的后向鏈接,NAKAYAMA K定義了IBF(Inversed Backward Frequency),IBF與PF組合形成了PF-IBF方法:

  78.png

  其中,N表示所有的條目數,bf(vj)表示條目vj的后向鏈接數。從上文的PF-IBF公式可以看出,如果條目vi和vj條目通過前向或后向鏈接相連并且vj沒有后向鏈接,則相應的pfibf值就會很高,概念之間的相關度相對較大。

3 結論

  維基百科作為世界上最大的在線百科全書,蘊含了豐富的語義知識。本文總結了利用維基百科完成復雜的語義相關度計算的方法,使用這些算法可以更容易地完成對維基百科的知識挖掘和完成文本分類等工作。但目前,無論是對維基百科使用的研究,還是維基百科相關算法研究,我國都遠遠少于國外。今后,隨著維基百科的優勢顯現,相信會有更多的國內專家關注維基百科,維基百科的相關技術也會更加成熟。

參考文獻

  [1] STRUBE M, PONZETTO S P. WikiRelate! Computing semantic relatedness using Wikipedia[C]. AAAI, 2006,6: 1419-1424.

  [2] ZESCH T, GUREVYCH I. Analysis of the Wikipedia category graph for NLP applications[C]. Proceedings of the TextGraphs-2 Workshop (NAACL-HLT 2007), 2007:1-8.

  [3] MEDELYAN O, MILNE D, LEGG C, et al. Mining meaning from Wikipedia[J]. International Journal of Human-Computer Studies, 2009,67(9):716-754.

  [4] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. IJCAI, 2003,3:805-810.

  [5] LESK M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone[C]. Proceedings of the 5th Annual International Conference on Systems Documentation, ACM, 1986:24-26.

  [6] GABRILOVICH E, MARKOVITCH S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C]. JCAI, 2007,7:1606-1611.

  [7] NAKAYAMA K, HARA T, NISHIO S. Wikipedia mining for an association Web thesaurus construction[M]. Web Information Systems Engineering-WISE 2007, Springer Berlin Heidelberg, 2007: 322-334.


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          久久国产精品久久久久久电车| 欧美日韩午夜视频在线观看| 久久综合色88| 欧美一级黄色网| 国产亚洲欧美日韩一区二区| 老司机aⅴ在线精品导航| 免费观看成人www动漫视频| 午夜宅男久久久| 免费观看国产成人| 在线观看欧美激情| 免费人成网站在线观看欧美高清| 亚洲女人小视频在线观看| 国产视频不卡| 国产区精品在线观看| 欧美在线一二三| 日韩一本二本av| 国产精品亚洲综合一区在线观看| 国产精品久久夜| 亚洲精品一区在线观看香蕉| 欧美一级一区| 欧美mv日韩mv国产网站| **性色生活片久久毛片| 欧美在线影院在线视频| 国产乱子伦一区二区三区国色天香| 欧美日韩极品在线观看一区| 国产亚洲毛片在线| 久久亚洲电影| 亚洲高清视频在线| 亚洲第一页在线| 欧美一区二区三区在线观看| 国产精品亚洲不卡a| 99re66热这里只有精品3直播| 亚洲高清精品中出| 麻豆亚洲精品| 国产尤物精品| 国产欧美日韩综合精品二区| 国产精品毛片a∨一区二区三区|国| 亚洲三级影院| aa日韩免费精品视频一| 国产精品美女在线观看| 欧美天堂亚洲电影院在线观看| 亚洲国产中文字幕在线观看| 久久综合色综合88| 国产一区91精品张津瑜| 欧美激情2020午夜免费观看| 国产精品一区二区在线观看不卡| 欧美人体xx| 在线观看一区二区精品视频| 久久国产直播| 国产精品久久久久久户外露出| 欧美激情亚洲精品| 欧美99在线视频观看| 久久综合九色综合网站| 亚洲一区二区免费视频| 黄色日韩精品| 欧美日韩成人综合在线一区二区| 99精品国产福利在线观看免费| 在线免费观看成人网| 欧美在线免费观看| 亚洲高清在线播放| 你懂的国产精品| 亚洲网在线观看| 久久人人爽人人爽爽久久| 欧美国产综合| 亚洲视频一区二区| 99国产精品| 久久频这里精品99香蕉| 欧美日韩另类字幕中文| 在线日韩一区二区| 亚洲电影免费在线| 9人人澡人人爽人人精品| 国产在线不卡视频| 美女露胸一区二区三区| 国产日韩欧美精品一区| 美女脱光内衣内裤视频久久影院| 日韩西西人体444www| 国产伦精品一区二区三区在线观看| 精品动漫3d一区二区三区免费| 欧美日韩国产色综合一二三四| 国产欧美一区二区三区沐欲| 一区免费在线| 国产亚洲免费的视频看| 国产免费一区二区三区香蕉精| 欧美一级大片在线免费观看| 欧美日本在线看| 在线观看91精品国产麻豆| 国产精品毛片a∨一区二区三区| 欧美精品一区二区三区一线天视频| 国内精品久久久久影院 日本资源| 9久re热视频在线精品| 欧美伊人久久久久久久久影院| 国产伦精品一区二区三区| 国产人成精品一区二区三| 亚洲人成77777在线观看网| 久久一区精品| 快射av在线播放一区| 欧美日韩精品免费观看视频完整| 一本一本久久a久久精品综合妖精| 99国产精品私拍| 欧美片网站免费| 国产精品久久久久影院色老大| 欧美婷婷久久| 亚洲欧美综合| 99精品国产高清一区二区| 国产精品久久久久久久久免费樱桃| 久久在线免费观看| 亚洲欧美福利一区二区| 亚洲一区视频在线观看视频| 久热re这里精品视频在线6| 一区二区三区高清视频在线观看| 国产精品最新自拍| 日韩一区二区高清| 国产视频久久久久| 欧美高清不卡| 亚洲国产成人久久综合| 9色porny自拍视频一区二区| 欧美777四色影视在线| 欧美不卡福利| 一区二区三区国产在线| 久久久精品视频成人| 欧美激情区在线播放| 久久精品国产一区二区三区| 国产嫩草一区二区三区在线观看| 激情五月综合色婷婷一区二区| 午夜精品免费| 一本到12不卡视频在线dvd| 中文精品视频| 国产日韩专区| 欧美三级在线| 久久综合九色| 国产视频亚洲| 欧美亚洲免费高清在线观看| 亚洲综合色在线| 亚洲国产精品激情在线观看| 国内揄拍国内精品少妇国语| 亚洲裸体视频| 久久成人精品电影| 麻豆精品国产91久久久久久| 欧美日本视频在线| 在线成人激情视频| 国内外成人免费激情在线视频| 亚洲国产精品久久久久婷婷884| 一区二区三区日韩精品视频| 欧美伊人久久久久久午夜久久久久| 性欧美大战久久久久久久免费观看| 国产精品任我爽爆在线播放| 欧美日韩视频| 久久五月婷婷丁香社区| 欧美日韩一区二区视频在线| 亚洲伦理在线| 免费成人网www| 国内精品久久久久影院薰衣草| 国产欧美视频一区二区三区| 国产色爱av资源综合区| 欧美二区在线观看| 亚洲免费在线播放| 欧美日韩高清区| 久久激情综合| 国产婷婷成人久久av免费高清| 久久免费视频这里只有精品| 一区二区三区中文在线观看| 99精品视频一区| 欧美精品一区二区三区视频| 久久久精品网| 欧美激情一二三区| 欧美视频观看一区| 欧美日韩日日骚| 欧美日本亚洲韩国国产| 中文在线资源观看视频网站免费不卡| 国产精品一区免费视频| 亚洲狼人精品一区二区三区| 一区二区三区国产精品| 精品二区视频| 久久经典综合| 欧美国产日本在线| 亚洲黄色成人| 欧美日韩亚洲精品内裤| 国产精品国产三级国产专播品爱网| 国产精品影音先锋| 性一交一乱一区二区洋洋av| 99精品视频免费全部在线| 欧美人交a欧美精品| 亚洲女同性videos| 国产日产精品一区二区三区四区的观看方式| 欧美日韩精品伦理作品在线免费观看| 久久aⅴ乱码一区二区三区| 好看的av在线不卡观看| 久久影院午夜论| 久久久精品五月天| 亚洲小视频在线| 国产综合欧美在线看| 久久久一区二区三区| 一区二区三区毛片| 亚洲欧美另类国产| 翔田千里一区二区| 欧美精品在线视频观看| 亚洲精品女人| 久久久亚洲午夜电影| 欧美国产日产韩国视频| 亚洲一区二区三区三| 亚洲一区欧美二区| 久久免费视频一区| 亚洲欧美日韩国产中文在线| 欧美日韩人人澡狠狠躁视频| 亚洲毛片在线| 欧美乱妇高清无乱码| 亚洲无毛电影| 一区二区三区导航| 欧美日韩另类视频| 亚洲激情专区| 久久精品国产清自在天天线| 久热成人在线视频| 亚洲免费中文| 欧美激情一区二区三区在线视频观看| 欧美激情成人在线| 一本色道**综合亚洲精品蜜桃冫| 国产精品嫩草99a| 欧美大片91| 亚洲女女做受ⅹxx高潮| 亚洲一区二区在线看| 欧美在线视频免费观看| 激情六月婷婷综合| 亚洲免费av网站| 午夜视黄欧洲亚洲| 久久精品综合| 欧美女主播在线| 欧美成人69| 欧美精品三级在线观看| 一区精品在线| 欧美一区二区三区精品| 先锋a资源在线看亚洲| 一本一道久久综合狠狠老精东影业| 欧美一区国产在线| 夜夜嗨av一区二区三区| 欧美成人精品一区| 最新日韩中文字幕| 欧美激情2020午夜免费观看| 欧美精品一区二区精品网| 亚洲欧洲精品天堂一级| 在线看一区二区| 亚洲国产精品一区二区久| 欧美巨乳在线观看| 午夜精品电影| 亚洲精品在线看| 欧美在线观看视频| 99国产成+人+综合+亚洲欧美| 91久久视频| 国产精品一区二区三区久久| 欧美午夜精品久久久久久久| 99re8这里有精品热视频免费| 国产午夜亚洲精品羞羞网站| 狠狠入ady亚洲精品经典电影| 国产乱码精品一区二区三区五月婷| 亚洲久久在线| 欧美日韩xxxxx| 亚洲麻豆一区| 国产精品系列在线| 久久国产主播精品| 老司机午夜精品| 好看的av在线不卡观看| 一本色道久久综合| 亚洲欧洲一二三| 午夜久久电影网| 国产乱人伦精品一区二区| 国产欧美日韩精品在线| 在线观看三级视频欧美| 亚洲国产精品嫩草影院| 亚洲精品乱码久久久久久日本蜜臀| 在线观看一区视频| 欧美高清不卡在线| 欧美一级淫片aaaaaaa视频| 午夜在线一区二区| 欧美一区在线看| 国产一在线精品一区在线观看| 久久精品免费| 一二三区精品福利视频| 欧美搞黄网站| 国产精品99久久久久久宅男| 国产精品欧美久久| 欧美日韩亚洲一区三区| 国产日韩欧美一区| 亚洲午夜国产成人av电影男同| 国产综合色一区二区三区| 欧美日韩国产精品| 久久精品夜色噜噜亚洲a∨| 在线视频一区二区| 欧美激情免费观看| 1204国产成人精品视频| 国产精品ⅴa在线观看h| 亚洲人成在线播放| 亚洲午夜在线| 国内精品久久久久国产盗摄免费观看完整版| av成人免费在线观看| 国产精品区一区二区三| 久热精品视频在线观看| 久久久久国产精品一区二区| 国产精品成人一区二区三区夜夜夜| 亚洲激精日韩激精欧美精品| 一本大道久久a久久精二百| 亚洲深夜激情| 国产精品高潮呻吟久久| 亚洲日韩欧美视频| 亚洲国产精品嫩草影院| 欧美二区在线观看| 国产欧美69| 欧美一区深夜视频| 日韩一区二区精品葵司在线| 亚洲欧洲综合另类| 欧美日韩久久不卡| 91久久在线视频| 欧美视频观看一区| 在线看国产日韩| 在线欧美一区| 国产精品高清网站| 亚洲精品网址在线观看| 国产精品国产三级国产普通话蜜臀| 日韩亚洲欧美高清| aa级大片欧美三级| 国产精品人成在线观看免费| 亚洲国产精品专区久久| 一区二区亚洲精品国产| 国产亚洲一区二区在线观看| 国产视频精品va久久久久久| 欧美视频免费在线| 久久久久久**毛片大全| 久久国产乱子精品免费女| 国产香蕉97碰碰久久人人| 国产精品欧美一区喷水|