《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于HybridDL模型的文本相似度檢測方法
基于HybridDL模型的文本相似度檢測方法
2020年電子技術應用第6期
肖 晗1,毛雪松1,朱澤德2
1.武漢科技大學 信息科學與工程學院,湖北 武漢430081; 2.中科院合肥技術創新工程院,安徽 合肥230031
摘要: 為了提高文本相似度檢測算法的準確度,提出一種結合潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)與Doc2Vec模型的文本相似度檢測方法,并把該算法得到的模型命名為HybridDL模型。該算法通過Doc2Vec對文檔訓練得到文檔向量,再利用LDA模型得到文檔主題與各個主題下特征詞出現的概率,對文檔中各主題及特征詞計算概率加權和,映射到Doc2Vec文檔向量中。實驗結果表明,新算法模型比傳統的Doc2Vec模型對相似文本的判斷更加敏感,在文本相似度檢測上具有更高的準確度。
中圖分類號: TN957.52;TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測方法[J].電子技術應用,2020,46(6):28-31,35.
英文引用格式: Xiao Han,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,2020,46(6):28-31,35.
Text similarity detection method based on HybridDL model
Xiao Han1,Mao Xuesong1,Zhu Zede2
1.School of Information Science and Engineering,Wuhan University of Science and Technology,Wuhan 430081,China; 2.Institute of Technology Innovation,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China
Abstract: In order to improve the accuracy of text similarity detection algorithm, this paper proposes a text similarity detection method combining latent Dirichlet Allocation(LDA) and Doc2Vec model, and names the model obtained by the algorithm HybridDL model. This algorithm obtains the document vector through Doc2Vec training of the document, and then obtains the probability of the occurrence of the document topic and the feature words under each topic with the LDA model, calculates the probability weighted sum of each topic and feature words in the document, and maps them to the Doc2Vec document vector. Experimental results show that the new algorithm model is more sensitive to the judgment of similar text than the traditional Doc2Vec model, and has higher accuracy in the detection of text similarity.
Key words : Doc2Vec;latent Dirichlet allocation;text representation;text similarity

0 引言

    在當下這個信息時代,互聯網已經成為人們生活中不可或缺的一部分,在機器計算能力大幅度提高的同時,獲得的數據也呈爆炸式增長。文本數據作為數據中的重要組成部分,量大且關鍵。因此,從大量的文本數據中高效地提取出滿足人們需要的信息成為了當下的熱門話題。在自然語言處理領域,通過計算機處理文本數據時,由于語言的多樣性,相同的詞語在不同的句子或者語境中表達出來的意思可能會存在差異,導致計算機無法直接并準確地獲取文本特征[1]。所以,如何從語料中學習到好的文本表示,如何提升文本表示模型的性能,對于后續自然語言處理的相關研究,如機器翻譯、文本分類[2]、情感分析[3]、問答系統、文本檢索等,具有十分深遠的意義。

    建立文本表示模型包括對詞、主題、語句、文檔等各個級別任務進行建模。對于詞級別的文本表示模型,通常使用被稱作詞向量的數學表示方法來處理。詞向量顧名思義是一種通過向量來表示句子中詞語的方法,向量中的每一維都在實數范圍內進行取值操作[4]

    詞向量最早由BENGIO Y、DUCHARME R、VINCENT P等人提出[5],其傳統做法是One-hot表示方法,即將不同詞用相對應的維度很高的向量來表示,其中,向量的維度對應字典大小,在各個詞的向量中只存在一個位置為1,其余位置為0。該表示模型十分簡潔,便于理解,但是由于數據稀疏會造成維數災難,并且該模型沒有考慮詞與詞之間的關聯性,準確度不高。

    近年來,被稱作詞的分布式表示的向量表示得到了較為廣泛的應用,理論思路是通過訓練,將句子中的各詞語映射到N維向量空間中。該方法在One-hot的基礎上,聯系了前后文的語義信息,使語義相近詞語所映射得到的詞向量比較接近,而One-hot法得到的是毫無關聯的詞向量。即可以通過詞與詞在空間中的距離計算詞與詞在語義上的相關性,距離越小則語義越相關,距離越大則越無關。2013年,MIKOLOV T等人提出利用神經網絡模型來訓練分布式詞向量[6],所得到的模型被稱作Word2Vec,該模型可以通過前后文的詞匯預測中心詞或者通過中心詞來預測前后文的詞匯。它相當于一個里程碑,現在也被廣泛使用。Doc2Vec是Word2Vec的擴展,于2014年由MIKOLOV T等人提出[7],同樣用于學習文檔表示。該模型在構建的過程中,在獲取上下文單詞信息的同時,增加了一個段落標記,能夠更精確地表示原始文本。但是在實際應用中Doc2Vec需要大量數據進行訓練才能有較好的效果,當數據量不足時,提取信息不充分,結果產生的偶然性較大。

    主題模型由于可以發掘深層次的語義信息,因此在構建文本表示模型時也可以達到較好的效果。2003年BLEI D M、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗分布加入到文檔、主題、詞的多項式分布中,效果顯著。LDA是一種從大量文檔中發現潛在主題的概率主題模型,它從文本的統計學特性入手,將文本語料庫映射到各個主題空間中,從而發掘文本中各主題與詞語之間的對應關系,得到文本的主題分布[9]。它通常被認為是一種通過對不同主題中的單詞進行分組的特征約簡方法,因此可以將文檔映射到更低的維度空間。但LDA沒有考慮詞語的前后文關聯,構建出的文本向量比較稀疏,在表示原始文本的信息方面效果一般。

    本文嘗試將LDA和Doc2Vec進行融合。LDA從每個文檔到所有主題的全局關系建模,而Doc2Vec則通過從目標單詞的上下文中學習來捕獲這些關系。發揮這兩種模型各自的優點,從而產生比傳統模型更高的準確率判斷。




論文詳細內容請下載http://www.cowatch.cn/resource/share/2000002836




作者信息:

肖  晗1,毛雪松1,朱澤德2

(1.武漢科技大學 信息科學與工程學院,湖北 武漢430081;

2.中科院合肥技術創新工程院,安徽 合肥230031)


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          国产一区二区日韩| 久久超碰97中文字幕| 一本一本久久a久久精品综合妖精| 欧美一区二区三区成人| 亚洲精选一区| 欧美色网在线| 亚洲一二三区精品| 欧美成ee人免费视频| 久久精品亚洲国产奇米99| 9色porny自拍视频一区二区| 影音先锋亚洲视频| 国产视频在线观看一区二区| 黑人中文字幕一区二区三区| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲综合电影| 亚洲美女黄网| 一区二区免费在线视频| 国产精品久久久久久久久动漫| 卡通动漫国产精品| 欧美精品一区三区| 国产精品高潮呻吟久久av无限| 欧美+日本+国产+在线a∨观看| 日韩亚洲欧美在线观看| 亚洲国产精品va在线看黑人动漫| 亚洲激情在线| 午夜影视日本亚洲欧洲精品| 亚洲一区二区三区四区中文| 国产亚洲精品久久久久动| 欧美va日韩va| 国产精品入口夜色视频大尺度| 国产一区二区三区不卡在线观看| 99精品欧美一区二区三区综合在线| 亚洲激情在线激情| 亚洲欧美成人网| 国产日韩欧美麻豆| 欧美一区二区三区精品电影| 黄色成人av网| 久久久久久色| 老司机免费视频一区二区| 国产日韩欧美精品一区| 欧美视频精品一区| 欧美激情一区二区三区不卡| 一二三四社区欧美黄| 欧美日韩在线一区二区三区| 久久视频这里只有精品| 精品999网站| 久久久国产精品一区二区中文| 欧美精品少妇一区二区三区| 欧美大片国产精品| 激情成人av在线| 国产女主播视频一区二区| 99re国产精品| 欧美一二三区在线观看| 欧美激情一区| 久久网站热最新地址| 亚洲视频一区二区在线观看| 免费成人你懂的| 亚洲夫妻自拍| 欧美伊人精品成人久久综合97| 夜夜狂射影院欧美极品| 羞羞视频在线观看欧美| 欧美三区免费完整视频在线观看| 亚洲激情成人在线| 精久久久久久| 99亚洲伊人久久精品影院红桃| 欧美午夜一区二区三区免费大片| 久久成人国产| 欧美一区二区三区免费大片| 欧美日韩一区二区三区四区在线观看| 海角社区69精品视频| 在线观看欧美精品| 国产精品自拍小视频| 中国亚洲黄色| 在线观看精品视频| 亚洲欧美激情视频| 久久精品国产第一区二区三区最新章节| 国产精品国产三级国产普通话蜜臀| 国产精品久久久久91| 亚洲自拍偷拍网址| 中文无字幕一区二区三区| **欧美日韩vr在线| 亚洲美女视频在线观看| 亚洲午夜激情免费视频| 99国产成+人+综合+亚洲欧美| 欧美高清一区二区| 久久久99免费视频| 国产欧美日韩精品一区| 久久精品国产亚洲一区二区| 亚洲欧洲偷拍精品| 久久九九热re6这里有精品| 欧美在线视频免费| 亚洲国产精品va在线看黑人| 国产精品v亚洲精品v日韩精品| 日韩五码在线| 国产精品www.| 欧美在线播放一区| 国产精品美女| 亚洲高清在线观看| 一区二区三区久久久| 一区二区三区精品国产| 亚洲一区二区三区四区中文| 亚洲美女视频网| 亚洲人体大胆视频| 影音先锋欧美精品| 亚洲精品123区| 中文国产亚洲喷潮| 在线播放亚洲| 欧美日韩亚洲高清一区二区| 欧美精品在线一区二区三区| 欧美日韩免费视频| 国产精品高潮在线| 久久国产精品高清| 中文久久乱码一区二区| 国产精品高潮久久| 欧美极品欧美精品欧美视频| 亚洲欧美激情诱惑| 亚洲男人的天堂在线| 午夜精品久久久久久久99水蜜桃| 欧美精品在线观看一区二区| 激情校园亚洲| 日韩视频精品在线观看| 久久久久国产精品www| 欧美日韩精品一区二区| 亚洲小少妇裸体bbw| 韩国美女久久| 国产精品毛片高清在线完整版| 亚洲一区免费网站| 亚洲精品激情| 欧美成人一区二区在线| 欧美视频一区二区三区在线观看| 美日韩精品视频| 国产精品一区二区三区久久久| 国产精品videosex极品| 中文av字幕一区| 亚洲午夜久久久久久久久电影院| 国产亚洲精久久久久久| 欧美日韩人人澡狠狠躁视频| 久久久水蜜桃av免费网站| 久久精品免费观看| 亚洲三级电影全部在线观看高清| 亚洲精品视频在线观看免费| 黄色另类av| 久久精品免费播放| 久久这里只精品最新地址| 亚洲黄页一区| 日韩一级精品| 久久精品一本久久99精品| 午夜伦欧美伦电影理论片| 亚洲国产欧美一区二区三区丁香婷| 亚洲高清资源| 欧美在线网站| 欧美久久久久| 最近中文字幕mv在线一区二区三区四区| 伊人婷婷欧美激情| 一区二区三区日韩欧美精品| 99国产精品视频免费观看一公开| 亚洲第一中文字幕在线观看| 久久精品国产一区二区三| 欧美激情欧美激情在线五月| 久久视频在线看| 欧美精品一区二区三区四区| 欧美激情在线有限公司| 久久先锋影音| 国产精品美女久久久久久免费| 免费视频一区| 免费观看在线综合| 国内成人精品一区| 亚洲伊人第一页| 欧美日韩aaaaa| 猛干欧美女孩| 欧美激情一区二区三区在线视频观看| 国产中文一区二区| 欧美性大战xxxxx久久久| 免费在线亚洲欧美| 亚洲国产精品一区二区www在线| 亚洲国产片色| 乱人伦精品视频在线观看| 国产精品乱码一区二区三区| 在线免费观看视频一区| 亚洲国产精品第一区二区| 欧美日韩在线第一页| 欧美精品久久久久久久久久| 日韩视频免费观看高清在线视频| 欧美日韩一区二区视频在线| 女人天堂亚洲aⅴ在线观看| 国产精品久久一卡二卡| 欧美日韩国产一区精品一区| 日韩天堂在线视频| 亚洲欧美日韩国产| 国产精品久久久久天堂| 久久久免费av| 亚洲最快最全在线视频| 国产欧美日韩91| 亚洲影视在线播放| 欧美xart系列在线观看| 欧美日韩一区二区三区视频| 午夜综合激情| 欧美三级午夜理伦三级中视频| 国产精品一区视频| 蜜桃av一区二区| 亚洲一区激情| 久久精品亚洲一区二区三区浴池| 一本色道**综合亚洲精品蜜桃冫| 一区二区三区国产在线观看| 午夜精品久久久久久久99热浪潮| 国语自产精品视频在线看一大j8| 亚洲女人av| 一区二区三区日韩欧美| 亚洲天堂视频在线观看| 欧美激情一区在线观看| 91久久精品国产91久久性色| 国产曰批免费观看久久久| 欧美高清日韩| 日韩午夜剧场| 99视频日韩| 欧美在线播放一区| 欧美亚洲第一区| 亚洲电影免费观看高清完整版在线观看| 欧美午夜视频一区二区| 欧美天天综合网| 欧美在线观看天堂一区二区三区| 国产欧美一区二区三区久久人妖| 亚洲黄一区二区三区| 国内精品久久久久久影视8| 亚洲日本免费| 国产精品日韩欧美一区| 中文在线不卡| 精品999网站| 午夜精品久久久久久久久| 亚洲视频一区| 欧美日韩在线视频首页| 一本久道综合久久精品| 小处雏高清一区二区三区| 香蕉久久一区二区不卡无毒影院| 亚洲伦理网站| 久久成人18免费观看| 在线不卡免费欧美| 欧美色播在线播放| 欧美国产日韩一区二区在线观看| 欧美激情亚洲| 欧美成人中文字幕| 欧美日韩国产免费观看| 久久亚洲午夜电影| 欧美国产综合视频| 蜜臀久久99精品久久久久久9| 国产亚洲成年网址在线观看| 免费成人毛片| 一区二区三区 在线观看视频| 国产精品视频区| 欧美日本一区二区高清播放视频| 久久人人九九| 国产欧美一区二区精品性| 国产日产精品一区二区三区四区的观看方式| a91a精品视频在线观看| 欧美一区二区三区免费在线看| 久久精品视频播放| 国产无遮挡一区二区三区毛片日本| 欧美日韩成人免费| 国产精品护士白丝一区av| 性做久久久久久久久| 亚洲一区国产一区| 久久久久.com| 免费日韩av电影| 国产精品日日做人人爱| 国模叶桐国产精品一区| 国产精品久久国产精品99gif| 欧美电影在线免费观看网站| 亚洲欧洲日本在线| 午夜日韩在线观看| 99人久久精品视频最新地址| 国产精品夫妻自拍| 亚洲欧美一区二区三区久久| 久久久久网址| 欧美freesex交免费视频| 欧美va亚洲va香蕉在线| 国产精品www色诱视频| 在线观看视频一区二区| 久久精品国产77777蜜臀| 亚洲第一成人在线| 亚洲欧美卡通另类91av| 亚洲国产精品va在看黑人| 久久精品国产综合精品| 一区二区三区回区在观看免费视频| 一区二区欧美激情| 国产性色一区二区| 国产精品天天看| 久久一区二区三区国产精品| 在线观看中文字幕亚洲| 欧美精品在线免费播放| 久久久精品国产99久久精品芒果| 亚洲国产精品高清久久久| 一区二区三区视频免费在线观看| 91久久精品久久国产性色也91| 一本色道久久加勒比精品| 好吊视频一区二区三区四区| 亚洲一品av免费观看| 国产日韩1区| 国产一区二区三区观看| 欧美精品18videos性欧美| 欧美精品日韩一本| 黑丝一区二区| 亚洲专区免费| 亚洲男女毛片无遮挡| 久久青草欧美一区二区三区| 亚洲六月丁香色婷婷综合久久| 亚洲欧洲日产国产综合网| 久久精品国产亚洲一区二区| 欧美黄色一区| 免费不卡欧美自拍视频| 国产精品制服诱惑| 亚洲永久免费观看| 狼人天天伊人久久| 午夜精品久久久| 欧美激情中文字幕一区二区| 狼人天天伊人久久| 一区二区三区成人| 免费国产一区二区| 欧美日韩亚洲一区二区三区在线观看| 久久久久久高潮国产精品视| 麻豆精品国产91久久久久久| 欧美日韩国产一区二区三区| 一区二区激情视频| 国内精品福利| 欧美日韩国产影片| 欧美精品性视频| 亚洲美女在线一区| 欧美日韩国产三区| 亚洲最新在线视频|