《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于詞典和語素的交集型歧義消除模型
基于詞典和語素的交集型歧義消除模型
來源:微型機與應用2013年第4期
李春雨1, 王 勇2
(1. 浙江機電職業技術學院,浙江 杭州 310053; 2. 杭州茂亨自控儀表有限公司,浙江 杭州
摘要: 提出了一種消除中文分詞中交集型歧義的模型。首先通過正向最大匹配法和逆向最大匹配法對中文文本信息進行分詞,然后使用不單獨成詞語素表對分詞結果進行分析對比消歧,得到符合漢語語境的結果。整個過程分為歧義識別、歧義分析、歧義消除三個階段。實驗結果表明,該模型可以有效降低由交集型歧義引起的中文文本切分錯誤率。
Abstract:
Key words :

摘  要: 提出了一種消除中文分詞交集型歧義的模型。首先通過正向最大匹配法和逆向最大匹配法對中文文本信息進行分詞,然后使用不單獨成詞語素表對分詞結果進行分析對比消歧,得到符合漢語語境的結果。整個過程分為歧義識別、歧義分析、歧義消除三個階段。實驗結果表明,該模型可以有效降低由交集型歧義引起的中文文本切分錯誤率。
關鍵詞: 自然語言處理; 分詞; 交集型歧義

    在英文和其他西方語言系統中,文本書寫時通常是詞與詞之間用空格隔開,但中文的書寫形式卻是連續的字串,詞與詞之間沒有任何標志。而對于中文來說,如果不進行詞語的有意義切分,句子將沒有任何的意義[1] 。分詞是中文信息處理的第一步,就目前來說,較為常用的中文分詞方法主要分為兩類:基于規則的方法和基于統計的方法[2]?;谝巹t的分詞方法的核心在于建立一個完備的詞典,然后通過該詞典對句子中的切分片段進行匹配,以完成分詞過程。較常用的基于詞典的中文分詞方法有正向最大匹配法、逆向最大匹配法和最佳匹配法;基于統計的分詞法的基本原理是對語料庫中相鄰字的組合頻度進行統計,根據一定的頻度計算公式來決定字符串成為詞的可能性進行分詞。字詞共現的頻度高低體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閥值時,便可認為此字符串可能已經構成了一個詞[3-5]。這些方法有效地促進了中文分詞研究的進一步發展,但在實際應用中仍然有很多因素影響著分詞的準確率,其中較常見的就是分詞的歧義問題。
    本文建立了一個中文分詞的模型來減少中文分詞中的歧義問題,以提高分詞的準確率。該模型基于正向最大匹配法和逆向最大匹配法來完成分詞過程,通過對兩種分詞方法產生的分詞序列進行比較分析,最終通過基于罰分機制的歧義消除算法選出正確的序列來完成分詞。
1 最大匹配法與交集型歧義
    最大匹配法有正向最大匹配法MM法(Maximum Matching Method)和逆向最大匹配法RMM法(Reverse Maximum Matching Method)兩種基本方法。它們具有原理簡單、時間復雜度低、易于實現等優點,但是不足之處在于往往不能識別出切分歧義而導致文本切分錯誤[6]。 而中文語言環境中歧義的存在是一個很普遍的現象,據統計,MM法對于文本的錯誤切分率為1/169,RMM法對于文本的錯誤切分率為1/245[7]。
    導致分詞錯誤的切分歧義主要有組合型歧義和交集型歧義兩種。在所有的歧義現象中,普通的交集型歧義現象所占的比例為85%以上[8],所以交集型歧義在中文文本中是極為常見的。以文本“他的確切地址在這兒”為例,通過MM法進行切分的結果為“他/的確/切/地址/在/這兒”,用RMM法得到的結果為“他/的/確切/地址/在/這兒”,可見兩種方法得到了不一樣的分詞結果,而有差別的“的確切”部分存在的歧義就是交集型歧義。
2 交集型歧義消除模型
2.1 歧義分詞

    歧義消除的過程通常是與分詞結合在一起的,對于中文文本來說,如果存在歧義,分別通過MM法和RMM法所得到分詞結果是一樣的,反之則不一樣。對于存在交集型歧義的文本,交集型歧義消除模型首先需要將文本用MM法和RMM法分別進行切分以得到兩個不同的切分結果。除此之外還可以通過其他的分詞方法得到更多的切分結果,但實驗證明MM法和RMM法的結合分詞能夠識別出絕大多數的交集型歧義,基于此點以及效率上的考慮,本文的模型中只保留使用MM法和RMM法兩種切分方法來進行對比分析。
    以文本“他明白天為什么下雨”為例,可以通過MM法和RMM法分別得到結果(1)和結果(2):
    結果(1):他/明白/天/為什么/下雨
    結果(2):他/明/白天/為什么/下雨
2.2 不單獨成詞語素表
    在本文所研究的交集型歧義消除模型中還需要用到一個不單獨成詞語素表。該表包含了一些在中文語境中單獨出現通常沒有意義的一些字,比如“第”,當“第”單獨出現時基本上沒有任何意義,但是“第”通過與其他字的組合卻能具有很多不同的意義,例如“及第”,“第一”等。在交集型歧義消除模型中,不單獨成詞語素表所包含的不單獨成詞的語素完備性對分詞的模型在實際應用當中的文本切分準確性是緊密聯系在一起的,語素表完備性越高則文本切分越準確,反之則越不準確。
2.3 消歧算法
    交集型歧義消除模型中所使用的用來確保能夠消除歧義的算法主要原理是通過引入針對切分結果賦予權值,然后對權值進行統計的方法來進行歧義消除的。
    定義:ABC為文本,A、B、C均為切分單元,即ABC可被切為A/B/C,A、B、C分別被賦予初始權值R(A)=R(B)=R(C)=1。
    現假設切分結果“A/B/C”中只有切分單元B屬于2.2節所構建的不單獨成詞語素表,則切分單元B的權值會增加,即R(B)=2。
    然后對切分結果“A/B/C”的權值進行統計,R(A)+R(B)+R(C)=1+2+1=4,通過不同的方法可以得到不同的切分結果,不同的切分結果的權值統計也會有區別。交集型歧義消除模型會將各個結果的權值統計進行比較分析,選出統計值較小的一個為消除歧義后的切分結果。
     對于文中2.1節分別通過MM法和RMM法獲得的結果(1)和結果(2),分別對切分單元賦予初始權值:
  結果(1):R(他)=R(明白)=R(天)=R(為什么)=R(下雨)=1;
  結果(2):R(他)=R(明)=R(白天)=R(為什么)=R(下雨)=1;
  通過將結果(1)和結果(2)與不單獨成詞語素表進行匹配,可以判斷結果(2)中的“明”字屬于不單獨成詞語素,即R(明)=2,通過結果權值統計:
  結果(1):R(他)+R(明白)+R(天)+R(為什么)+R(下雨)=1+1+1+1+1=5;
  結果(2):R(他)+R(明)+R(白天)+R(為什么)+R(下雨)=1+2+1+1+1=6;
  然后通過對結果進行比較,交集型歧義消除模型選取權值統計較小的結果(1)為消歧后的正確結果,同時該結果也完全符合中文語境下的正確的表達意義。
2.4 模型示意圖
  通過以上的分析描述,交集型歧義消除模型消歧的過程主要分為三個步驟:發現歧義、分析歧義、消除歧義。發現歧義是通過MM法和RMM法對文本進行切分對比來識別歧義的存在;分析歧義的過程是以不單獨成詞語素表為基礎,通過對文本切分單元進行權值賦予與統計來完成的;最后的消除歧義步驟則是對分析歧義的結果進行對比,剔除切分錯誤文本來消除歧義。圖1是交集型歧義消除的示意圖。

3 實驗及結果
     對于中文分詞來說,分詞的高效性和準確性是極其重要的。在相同的條件下,更準確、更高效的分詞方法就意味著更好的分詞性能以及更快的分詞速度。
    (1) 效率分析
     根據本文中的分詞策略,對于一個中文句子來說,分別用正向最大匹配法和逆向最大匹配法得到兩個分詞結果序列,然后通過不單獨成詞語素表來對兩個結果序列進行分析,整個分析過程不涉及到其他的分詞方法。而正向最大匹配法和逆向最大匹配法基于其實現原理分詞效果是非常理想的,在所有的中文分詞系統中基本上都可以找到這兩種方法的身影,所以本文中的分詞過程基于正向最大匹配法和逆向最大匹配法這兩種基本方法,然后再結合不單獨成詞語素表,使分詞的效率得到了保證。
    (2) 準確性分析
    在中文自然語言處理領域,正向最大匹配法和逆向最大匹配法是兩個最基本的分詞方法,不幸的是這兩種方法都不能很好地解決中文語言環境中的分詞歧義問題。因此,針對于這一系列因素,本文中提到的交集型歧義消除模型利用對切分結果進行基于不單獨成詞語素表的權值統計來選出相對權值較小的切分結果,進而保證中文分詞中的交集型歧義的發現與消除。
    (3) 實驗結果分析
    基于以上的規則,本文中開發了一個交集型歧義消除系統,其中不單獨成詞語素表包含了4 871個不單獨成詞語素,同時從2012年的人民日報中選取了6篇文章作為實驗的原始語料庫。通過用交集型歧義消除模型獲得的消歧結果與單獨使用正向最大匹配法和逆向最大匹配法所得到的結果進行對比來分析系統的效率和準確度。
    表1和表2分別為單獨使用MM法和RMM法進行文本切分時的切分準確率。表3為采用交集型歧義消除模型進行切分的準確率,從中可以看到交集型歧義消除模型針對于同一語料庫的文本切分準確率最高。

 

 


    圖2為MM法、RMM法和交集型歧義消除模型切分準確率的對比。從圖2中可以看出,交集型歧義消除模型對文本切分中的交集型歧義消除準確率比單獨使用正向最大匹配法和逆向最大匹配法的切分準確率要高。

    圖3是交集型歧義消除模型與MM法、RMM法在文本切分效率上的對比。從圖3中可以看出,交集型歧義消除模型雖然較MM法和RMM法額外使用了不單獨成詞語素表,但在效率上并沒有明顯的降低。
    通過以上的實驗可以看出,交集型歧義消除模型可以很好地發現并解決中文語言環境下的交集型歧義問題,并且具有較高的效率和準確率。根據實驗數據可知,本系統的分詞結果準確率比單純使用正向最大匹配法和逆向最大匹配法高得多;另一方面,由于使用了不單獨成詞語素表,本文算法的分詞效率較原始的正向最大匹配法和逆向最大匹配法有略微的降低。但結合效率和準確性來進行整體分析,可以看到交集型歧義消除模型對于解決中文分詞中的交集型歧義是非常有價值的。
    本文基于不單獨成詞語素表及常用的分詞方法提供了一個中文分詞中的交集型歧義的解決方案。實驗結果表明,交集型歧義消除模型能夠很好地解決中文分詞中的交集型歧義問題,希望本文的研究成果能夠對中文分詞歧義消除領域的發展起到一定的推動作用。
參考文獻
[1] 孫茂松,鄒嘉彥. 漢語自動分詞研究評述[J]. 當代語言學,2001(1):22-32.
[2] 麥范金,王挺.基于雙向最大匹配和HMM 的分詞消歧模型[J].現代圖書情報技術,2008(8):37-41.
[3] 施彤年,盧忠良,榮融,等.多類多標簽漢語文本自動分類的研究[J]. 情報學報, 2003,22(3):306-309.
[4] 鄒海山,吳勇,吳月珠,等.中文搜索引擎中的中文信息處理技術[J]. 計算機應用研究, 2000(12).
[5] 趙偉,戴新宇,尹存燕,等.一種規則與統計相結合的漢語分詞方法[J]. 計算機應用研究, 2004(3):23-25.
[6] 劉穎.計算語言學[M].北京:清華大學出版社,2002.
[7] 梁南元.書面漢語自動分詞系統——CDWS[J]. 中文信息學報,1987(2):44-52.
[8] 一種Hash高速分詞算法[J].解放軍理工大學學報(自然科學版),2004,5(2):40-42.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          午夜视频一区| 夜夜嗨av一区二区三区四季av| 黄色av日韩| 亚洲影视九九影院在线观看| 国产日韩欧美制服另类| 国产精品日韩欧美综合| 日韩视频一区二区在线观看| 国产精品va在线播放我和闺蜜| 麻豆精品一区二区综合av| 久久夜精品va视频免费观看| 久久综合给合久久狠狠色| 亚洲乱码精品一二三四区日韩在线| 欧美日韩免费视频| 亚洲成人中文| 亚洲一区二区在线| 好吊色欧美一区二区三区视频| 国产伦精品一区二区三区照片91| 国产一区二区久久久| 国产一区二区视频在线观看| 一二三区精品| 欧美午夜精品久久久久久久| 国产午夜亚洲精品理论片色戒| 亚洲一级电影| 国产精品美女在线观看| 老色鬼久久亚洲一区二区| 欧美成人免费在线观看| 欧美在线观看视频一区二区三区| 久久露脸国产精品| 蜜桃久久精品一区二区| 欧美在线综合| 久久久久国产精品午夜一区| 欧美日韩综合精品| 欧美色道久久88综合亚洲精品| 亚洲高清精品中出| 欧美伊久线香蕉线新在线| 欧美午夜片在线观看| 欧美人在线视频| 欧美国产日韩在线观看| 亚洲色图在线视频| 久久成人av少妇免费| 欧美视频中文字幕| 国产日韩精品视频一区二区三区| 免费一级欧美在线大片| 亚洲另类在线视频| 国产亚洲一本大道中文在线| 亚洲影视在线播放| 欧美视频在线免费| 欧美91大片| 欧美日一区二区在线观看| 久久xxxx精品视频| 亚洲一区二区三区在线观看视频| 国产精品久久久久aaaa樱花| 国产精品ⅴa在线观看h| 久久久www成人免费毛片麻豆| 亚洲小视频在线观看| 欧美成人第一页| 国产精品老牛| 亚洲黄色小视频| 一区二区三区在线免费播放| 亚洲国产精品久久久久秋霞不卡| 久久久综合免费视频| 黄色成人av网| 久久午夜精品一区二区| 午夜精品www| 在线观看亚洲| 亚洲午夜精品久久久久久浪潮| 欧美午夜性色大片在线观看| 久久激情视频免费观看| 国产毛片精品国产一区二区三区| 欧美精品网站| 欧美日韩中文字幕精品| 国产精品s色| 亚洲激情欧美激情| 亚洲成色777777在线观看影院| 欧美日韩一区二区欧美激情| 亚洲视频中文字幕| 国产欧美日韩中文字幕在线| 欧美高清视频在线观看| 国产精品日韩精品欧美在线| 欧美色中文字幕| 国产精品呻吟| 欧美精品日日鲁夜夜添| 欧美日韩亚洲网| 狠狠综合久久| 国产午夜精品一区二区三区欧美| 狠狠网亚洲精品| 久久综合网络一区二区| 欧美视频在线观看一区| 亚洲日本成人女熟在线观看| 欧美国产日本| 另类专区欧美制服同性| 国产尤物精品| 久久夜色精品国产欧美乱极品| 亚洲自拍都市欧美小说| 国产一区二区三区在线观看免费| 亚洲欧美日韩中文视频| 欧美日韩另类字幕中文| 欧美日韩成人免费| 国产自产在线视频一区| 欧美一二三视频| 黑人中文字幕一区二区三区| 午夜一区不卡| 欧美人与性动交a欧美精品| 欧美韩日亚洲| 久久本道综合色狠狠五月| 久久精品国产91精品亚洲| 欧美激情国产高清| 欧美三级黄美女| 狠狠v欧美v日韩v亚洲ⅴ| 欧美成人精品在线视频| 久久久亚洲人| 亚洲激情二区| 在线成人av.com| 欧美日韩在线免费视频| 日韩视频在线免费| 久久爱www| 国产精品v亚洲精品v日韩精品| 一区二区三区免费观看| 国产午夜精品久久久久久久| 国产精品久久久久久久久| 国产欧美一区二区精品性| 精品不卡一区| 一区二区三区在线视频免费观看| 欧美日韩不卡| 国产精品亚洲美女av网站| 一区二区三区免费看| 在线亚洲欧美专区二区| 影音先锋日韩有码| 欧美高清视频免费观看| 国产色爱av资源综合区| 亚洲黄色成人久久久| 欧美猛交免费看| 亚洲精品乱码久久久久久久久| 亚洲一区中文字幕在线观看| 国内成人精品视频| 国语精品一区| 欧美日韩在线三级| 亚洲视频电影在线| 狠狠色丁香婷婷综合| 国产伦一区二区三区色一情| 99成人免费视频| 一区二区国产精品| 久久久不卡网国产精品一区| 欧美精品国产一区二区| 国产精品视频不卡| 国产拍揄自揄精品视频麻豆| 在线亚洲一区| 激情亚洲成人| 欧美成人午夜77777| 韩国精品久久久999| 免费久久99精品国产自| 欧美日本一区二区视频在线观看| 另类酷文…触手系列精品集v1小说| 国产精品久久久久久久久久免费看| 亚洲人成人一区二区在线观看| 日韩亚洲欧美成人一区| 国产毛片精品国产一区二区三区| 亚洲欧洲在线观看| 欧美精品在线一区二区三区| 在线观看日韩av电影| 欧美片第一页| 久久精品日产第一区二区| 在线中文字幕日韩| 国语自产精品视频在线看8查询8| 亚洲永久精品国产| 午夜免费久久久久| 1769国产精品| 欧美激情第六页| 亚洲激情在线激情| 欧美二区在线播放| 亚洲永久免费精品| 亚洲一区二区高清| 亚洲一区二区精品在线观看| 另类av一区二区| 久久成年人视频| 国产精品久久久久毛片大屁完整版| 一区二区三区国产精品| 亚洲日韩欧美视频| 久久成人人人人精品欧| 一区二区高清视频| 欧美激情视频一区二区三区不卡| 在线精品视频一区二区三四| 性视频1819p久久| 亚洲无限乱码一二三四麻| 在线视频你懂得一区二区三区| 亚洲视频一二区| 国产精品久久久久久久免费软件| 欧美黄色大片网站| 欧美在线观看日本一区| 亚洲精一区二区三区| 亚洲综合激情| 午夜精品视频在线观看| 亚洲欧美日本国产有色| 亚洲国产欧美一区二区三区丁香婷| 久久婷婷国产综合尤物精品| 欧美激情国产日韩精品一区18| 亚洲午夜黄色| 亚洲精品一线二线三线无人区| 欧美黄色日本| 欧美一区二区啪啪| 亚洲一级黄色片| 欧美体内谢she精2性欧美| 欧美国产三级| 在线电影一区| 欧美激情视频一区二区三区不卡| 久久久久久69| 欧美精品一级| 伊人久久大香线蕉综合热线| 久久精品国内一区二区三区| 欧美三级在线视频| 亚洲美女在线一区| 亚洲电影免费在线观看| 欧美日韩mp4| 亚洲自拍偷拍网址| 午夜精品久久久久久久久久久久久| 欧美中文字幕| 欧美日韩在线另类| 欧美二区在线| 久久大香伊蕉在人线观看热2| 欧美视频在线观看免费| 欧美理论电影在线播放| 欧美午夜视频一区二区| 在线精品视频免费观看| 欧美 日韩 国产 一区| 香蕉成人久久| 国产精品激情电影| 亚洲七七久久综合桃花剧情介绍| 一本色道久久综合亚洲精品婷婷| 欧美国产综合一区二区| 午夜久久99| 国内精品伊人久久久久av影院| 亚洲国产精品一区制服丝袜| 蜜臀av国产精品久久久久| 亚洲剧情一区二区| 欧美精品色一区二区三区| 国产亚洲一区二区精品| 在线视频观看日韩| 国自产拍偷拍福利精品免费一| 久久国产精品一区二区三区四区| 91久久国产综合久久91精品网站| 亚洲第一天堂无码专区| 一区二区三区四区国产| 国产视频在线观看一区二区三区| 一区二区三区 在线观看视频| 午夜精品一区二区三区电影天堂| 1769国产精品| 99精品热视频只有精品10| 欧美日韩免费在线观看| 99精品欧美一区二区蜜桃免费| 欧美精品久久久久久久| 日韩一二三区视频| 亚洲欧美日韩国产另类专区| 这里只有精品在线播放| 国产日韩综合一区二区性色av| 欧美日韩日韩| 久热综合在线亚洲精品| 亚洲免费精彩视频| 欧美va亚洲va国产综合| 久久最新视频| 在线日韩av永久免费观看| 狠狠综合久久av一区二区小说| 欧美日韩一区二区在线视频| 欧美视频手机在线| 国产欧美一区二区三区沐欲| 午夜精品一区二区三区四区| 一区二区日韩免费看| 久久久av网站| 亚洲高清久久网| 亚洲国产成人在线视频| 国产精品久久久一区麻豆最新章节| 国产欧美精品日韩| 欧美在线观看一二区| 久久夜色精品国产欧美乱| 久久aⅴ乱码一区二区三区| 在线成人免费观看| 久久久久久久999精品视频| 亚洲精品日韩在线观看| 国产一区二区久久| 亚洲黄色大片| 快she精品国产999| 亚洲一区黄色| 欧美中文字幕视频在线观看| 国产在线拍偷自揄拍精品| 欧美视频中文在线看| 欧美激情中文字幕乱码免费| 在线观看91精品国产麻豆| 在线日韩一区二区| 亚洲天堂男人| 在线一区观看| 欧美日韩国产三级| 午夜精品美女久久久久av福利| 国产揄拍国内精品对白| 狠狠色综合播放一区二区| 性欧美18~19sex高清播放| 欧美激情第五页| 美日韩免费视频| 欧美日韩在线大尺度| 久久亚洲综合色一区二区三区| 国产免费成人在线视频| 亚洲电影第1页| 久久亚洲欧美国产精品乐播| 久久免费视频网站| 一区二区三区波多野结衣在线观看| 久久青青草综合| 亚洲男人影院| 亚洲欧洲日本mm| 91久久国产综合久久| 欧美日韩精品免费观看视频| 欧美视频在线视频| 精品二区视频| 国产精品成人观看视频国产奇米| 亚洲激情自拍| 国产精品日本欧美一区二区三区| 亚洲天堂网站在线观看视频| 在线免费观看日韩欧美| 国产视频欧美| 欧美激情亚洲一区| 亚洲激情电影中文字幕| 亚洲免费视频网站| 黄色成人在线| 亚洲精品亚洲人成人网| 在线精品福利| 欧美在线91| 狠狠狠色丁香婷婷综合久久五月| 欧美高清自拍一区| 欧美一级专区免费大片| 欧美国产欧美亚洲国产日韩mv天天看完整| 欧美在线资源|