《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 最大匹配算法研究
最大匹配算法研究
來源:微型機與應用2012年第8期
萬 莛
(武漢理工大學 計算機科學與技術學院, 湖北 武漢430063)
摘要: 最大匹配算法是中文分詞中最常用的方法,但其有著過分依賴于詞典的弊端。對最大匹配算法進行了深入探討與研究,使用n-gram技術更新詞典解決其弊端,從而提高分詞效果。最后通過雙向匹配算法與n-gram相結合的實驗驗證了該方案的可行性,并對該方案進行了總結。
Abstract:
Key words :

摘  要: 最大匹配算法是中文分詞中最常用的方法,但其有著過分依賴于詞典的弊端。對最大匹配算法進行了深入探討與研究,使用n-gram技術更新詞典解決其弊端,從而提高分詞效果。最后通過雙向匹配算法與n-gram相結合的實驗驗證了該方案的可行性,并對該方案進行了總結。
關鍵詞: 中文分詞;最大匹配;n-gram;詞頻;雙向匹配

    作為計算機信息處理中最基礎、最關鍵的技術,中文分詞一直是人們研究的熱點。中文分詞就是將連續的漢字序列按照一定的規律分割成一個個單獨的詞的過程[1]。在英文句子中,單詞之間是以空格作為自然分界符的,所以英文分詞比較簡單;而中文以字為基本單位,將一序列字串聯在一起形成句子,從而表達意思,中文的句和段能通過明顯的分界符來劃分,但是詞沒有一個形式上的分界符,所以中文分詞比英文分詞相對困難許多。中文分詞方法總結起來大致可分為三大類:基于詞典直接匹配的分詞方法、基于規則和理解的分詞方法和基于統計模型的分詞方法[2]。本文主要討論基于詞典匹配算法中的最大匹配算法,針對其過分依賴詞典這一弊端進行了探討并提出了對策。
1 最大匹配算法
    最大匹配算法是最常用也是最基本的字符串匹配算法之一。它能夠保證切分出來的詞長度最大,同時易于實現[3]。最大匹配算法包括正向最大匹配算法、逆向最大匹配算法和雙向最大匹配算法。
1.1 正向最大匹配算法
    正向最大匹配算法流程[4]如圖1所示。

    以“中華人民共和國簡稱中國”為例,設定取詞長度n為8,待匹配字符串為s,按照上述步驟處理過程為:
    (1)s為“中華人民共和國簡”,查找詞典進行匹配操作,發現沒有該詞;
    (2)s去掉最后一個字,變為“中華人民共和國”,查找詞典進行匹配操作,發現該詞,將該詞存入結果文檔中;
    (3)更新s,發現剩余的字“簡稱中國”長度不足8,所以s為“簡稱中國”,查找詞典進行匹配操作,發現沒有該詞;
    (4)s去掉最后一個字,變為“簡稱中”,查找詞典進行匹配操作,發現沒有該詞;
    (5)s去掉最后一個字,變為“簡稱”,查找詞典進行匹配操作,發現該詞,將其存入結果文檔中;
    (6)更新s,發現剩余的字“中國”長度不足8,所以s為“中國”,查找詞典進行匹配操作,發現該詞,將其存入結果文檔中;
    (7)更新s,發現s為空,至此分詞操作結束。
    分詞結果為“中華人民共和國/簡稱/中國”。
1.2 逆向最大匹配算法
    逆向最大匹配算法與正向最大匹配算法流程相似[5],只是取詞操作與待匹配字串更新操作不同。逆向最大匹配算法從文檔末尾開始進行取詞,匹配不成功刪除的是待匹配字符串的第一個字而不是最后一個。
1.3 雙向最大匹配算法
    將正向最大匹配算法與逆向最大匹配算法相結合所產生的算法即是雙向最大匹配算法,它能夠選取正向最大匹配算法和逆向最大匹配算法中分詞效果較好的一方,以提高分詞效果。
1.4 最大匹配算法的問題
    最大匹配算法存在以下問題:(1)待匹配字符串最大長度的設定困難,過長易造成效率低,過短則造成分詞不精確;(2)對詞典依賴程度過大,分詞效果取決于詞典。
2 n-gram技術

 


    隨著時間推移,肯定有大量新詞產生。為了豐富詞典,本實驗采用n-gram技術擴充詞典。n-gram就是對一個字序列進行分割,分割產生的字符串是該字序列的子串[6]。例如:對“中華人民共和國簡稱中國”進行n-gram 2元切分,得到2元組:中華|華人|人民|民共|共和|和國|國簡|簡稱|稱中|中國。
    本實驗中,n-gram擴充詞典步驟[7]如下:
    (1)選擇語料庫,本次實驗選擇2010年10月14日~18日參考消息作為預料庫;
    (2)對語料庫進行預處理,將數字、標點、字母等全部刪掉,只剩下漢字;
    (3)進行切分并統計詞頻,本次實驗最大詞長為8,所以切分為2元組至8元組,詞頻統計如表1所示。

    (4)選取候選詞。如圖2所示,根據觀察,當設置使用詞頻大于5的詞作為候選詞時,可靠性較高。所以本次實驗設定候選詞的詞頻數大于5。


    (5)使用候選詞對詞典進行更新。
3 實驗
    為了提高分詞效果,本次實驗采用雙向匹配算法同時使用n-gram技術來負責詞典的更新操作。
    由于逆向最大匹配算法比正向最大匹配算法有更高的精度[8],所以本次實驗中雙向匹配算法的選擇策略是:當正向最大匹配分詞所分出的詞數小于逆向最大匹配算法所分出的詞數時,分詞結果采用正向最大匹配所得結果;否則使用逆向最大匹配算法所得結果。
    本次實驗代碼采用java編寫,分詞算法中使用的方法主要有:(1)public StringBuffer result(String s,Set<String> dic)。用一個StringBuffer來存儲結果,并返回。參數s表示從待分詞文檔中讀到的行字符串,dic表示詞典。(2)public void segment(String max,String s, Set<String> dic)。參數max表示待匹配字符串。(3)public void n_gram()。n_gram的實現,主要使用HashMap<String,Integer>,其中String用來存儲詞,Integer存儲詞頻。
    在未進行詞典更新操作之前,對“胡錦濤提出了科學發展觀”進行分詞操作得到的結果是“胡錦濤/提出/了/科學發展/觀”;進行詞典更新之后,“科學發展觀”成為單獨一詞,結果為“胡錦濤/提出/了/科學發展觀”,說明使用n-gram對詞典進行更新的確能起到提高分詞效果的作用。
    本文首先對最大匹配算法進行了詳細的闡述,繼而提出最大匹配算法的不足之處,即對詞典依賴程度過大,詞典的好壞直接決定了分詞的質量。為解決該問題,提出使用n-gram技術來進行詞典的自我更新,提高詞典質量,從而提高最大匹配算法分詞效果。通過實驗驗證了該方法的可行性。但是仍有不足之處:第一是對用來更新詞典的語料庫要求較高,語料庫必須具有代表性,能包含當前社會所使用的主流詞語;其次語料庫必須足夠大才能得到更好的效果;再次更新詞典對計算機性能消耗較大,必須選擇合理的時間進行更新操作。
參考文獻
[1] 周宏宇,張政.中文分詞技術綜述[J].安陽師范學院學報,2010(2):54-56.
[2] 劉春輝.基于優化最大匹配的中文分詞方法研究[D].秦皇島:燕山大學,2009.
[3] 林浩,韓冰,楊樂華.一種基于改進最大匹配快速中文分詞算法[J].科技創新導報,2009(9):248.
[4] 趙源.基于最大匹配的中文分詞改進算法研究[J].科技信息,2010(35):487,496.
[5] 王瑞雷,欒靜,潘曉花,等.一種改進的中文分詞正向最大匹配算法[J].計算機應用與軟件,2011,28(3):195-197.
[6] 吳勝遠.一種漢語分詞方法[J].計算機研究與發展,1996,33(4):306-311.
[7] 李文,洪親,滕忠堅,等.基于n-gram的字符串分割技術的算法實現[J].計算機與現代化,2010(9):85-87.
[8] 張磊,張代遠.中文分詞算法解析[J].電腦知識與技術,2009,5(1):192-193.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          国产精品入口夜色视频大尺度| 伊人影院久久| 欧美色图麻豆| 欧美一区在线视频| 欧美日韩国产综合久久| 久久久成人网| 国产拍揄自揄精品视频麻豆| 一区二区三区你懂的| 性欧美video另类hd性玩具| 国产精品三级久久久久久电影| 黄色资源网久久资源365| 巨胸喷奶水www久久久免费动漫| 欧美高清一区| 欧美69wwwcom| 欧美丰满高潮xxxx喷水动漫| 午夜精品网站| 亚洲免费一级电影| 国产日韩欧美亚洲| 亚洲精品国精品久久99热一| 亚洲激情六月丁香| 欧美极品一区二区三区| 国产欧美精品日韩区二区麻豆天美| 欧美一区二区在线播放| 久久久久久久国产| 国产精品久久久久久久久果冻传媒| 亚洲东热激情| 亚洲电影天堂av| 久久国内精品自在自线400部| 欧美一区二区精品| 国产精品99久久久久久有的能看| 久久久免费观看视频| 欧美喷水视频| 一区二区三区鲁丝不卡| 在线亚洲欧美| 欧美在线中文字幕| 国产日韩精品在线| 亚洲精品日产精品乱码不卡| 国产精品久久久久久久午夜| 国产麻豆一精品一av一免费| 亚洲第一精品夜夜躁人人躁| 欧美激情91| 亚洲精品一区在线观看| 亚洲人成网站色ww在线| 亚洲综合99| 亚洲欧美日韩一区在线| 伊人成综合网伊人222| 欧美午夜在线一二页| 一区二区三区在线高清| 亚洲欧美精品中文字幕在线| 毛片av中文字幕一区二区| 伊人久久亚洲热| 性娇小13――14欧美| 欧美激情视频在线免费观看 欧美视频免费一| 亚洲视频电影图片偷拍一区| 亚洲国产高清高潮精品美女| 欧美人牲a欧美精品| 国产精品蜜臀在线观看| 一区国产精品| 在线看片第一页欧美| 欧美激情视频给我| 亚洲伦理自拍| 亚洲人成在线影院| 国产精品婷婷| 欧美在线视频网站| 亚洲国产精品热久久| 在线观看一区二区视频| 亚洲黄色一区| 欧美人妖在线观看| 国产亚洲视频在线观看| 激情欧美日韩一区| 亚洲三级电影在线观看| 一本一本大道香蕉久在线精品| 欧美77777| 亚洲国产成人精品视频| 麻豆精品精品国产自在97香蕉| 国产一级久久| 亚洲精品一二三区| 久久精品国产成人| 一区二区三区回区在观看免费视频| 午夜视频久久久| 亚洲免费高清视频| 亚洲欧美一区二区激情| 蜜臀av性久久久久蜜臀aⅴ| 欧美日韩一区二区精品| 欧美伊人久久| 国产欧美日韩综合一区在线播放| 香蕉久久夜色精品国产使用方法| 亚洲国产精品传媒在线观看| 在线成人免费视频| 一区二区三区在线观看欧美| 老牛国产精品一区的观看方式| 亚洲午夜电影网| 欧美日韩精品免费观看| 国产欧美一区二区精品秋霞影院| 亚洲黄色在线观看| 欧美一区二区在线观看| 91久久久久久久久久久久久| 欧美日韩美女一区二区| 欧美日韩国产999| 欧美午夜宅男影院| 你懂的网址国产 欧美| 欧美成人在线免费视频| 亚洲国产天堂久久综合网| 亚洲电影中文字幕| 国产欧亚日韩视频| 久久高清免费观看| 在线综合亚洲欧美在线视频| 欧美视频免费在线观看| 亚洲国产精品成人va在线观看| 欧美一区二区三区久久精品茉莉花| 久久福利精品| 国产精品久久久久久久久久尿| 亚洲综合色丁香婷婷六月图片| 亚洲第一中文字幕在线观看| 欧美一区午夜精品| 欧美精选午夜久久久乱码6080| 欧美一区二区三区精品| 亚洲天堂av在线免费观看| 亚洲精品乱码久久久久久黑人| 亚洲自拍三区| 午夜精品福利一区二区三区av| 欧美性大战久久久久久久蜜臀| 国产精品电影网站| 久久亚洲国产成人| 亚洲人成网站精品片在线观看| 欧美视频一区二| 一区二区三区精品| 在线成人黄色| 国精产品99永久一区一区| 国产亚洲欧美在线| 欧美激情成人在线视频| …久久精品99久久香蕉国产| 国产精品久久国产三级国电话系列| 国产欧美日韩精品在线| 欧美制服第一页| 久久蜜桃av一区精品变态类天堂| 欧美日韩在线看| 免费看av成人| 欧美在线播放| 欧美成年人视频| 欧美成人午夜免费视在线看片| 亚洲高清资源综合久久精品| 毛片精品免费在线观看| 国产精品女主播| 在线视频国内自拍亚洲视频| 国内一区二区三区在线视频| 日韩午夜中文字幕| 亚洲欧美日韩人成在线播放| 国产主播在线一区| 欧美bbbxxxxx| 国产精品久久久99| 欧美一区二区精品在线| 亚洲桃花岛网站| 亚洲特黄一级片| 一区二区三区精品视频| 蜜桃精品久久久久久久免费影院| 国产一区视频在线观看免费| 午夜精品在线看| 免费成人高清视频| 国产网站欧美日韩免费精品在线观看| 午夜精品一区二区三区在线播放| 亚洲欧美久久久久一区二区三区| 久久成人一区二区| 欧美日韩在线精品| 久久午夜精品| 国模吧视频一区| 欧美视频免费在线观看| 欧美国产精品va在线观看| 美女主播精品视频一二三四| 日韩视频专区| 尤物网精品视频| 国产一区二区日韩精品| 欧美精品免费在线观看| 欧美大片免费观看| 亚洲美女区一区| 在线免费高清一区二区三区| 在线中文字幕不卡| 亚洲麻豆国产自偷在线| 亚洲国产欧洲综合997久久| 蜜桃av久久久亚洲精品| 欧美另类极品videosbest最新版本| 一本一道久久综合狠狠老精东影业| 欧美有码在线观看视频| 免费成人美女女| 亚洲主播在线观看| 国产精品久久久久永久免费观看| 欧美1区2区3区| 欧美视频在线不卡| 欧美xart系列在线观看| 午夜精品国产更新| 在线亚洲欧美视频| 亚洲区中文字幕| 欧美日韩视频专区在线播放| 欧美精品自拍偷拍动漫精品| 欧美国产亚洲精品久久久8v| 国产精品九九久久久久久久| 亚洲人屁股眼子交8| 亚洲国产精品传媒在线观看| 国产精品99久久久久久久久久久久| 欧美三日本三级少妇三2023| 久久久五月婷婷| 亚洲免费一区二区| 美女网站久久| 国内精品国语自产拍在线观看| 国产精品日本精品| 国产日韩欧美高清免费| 欧美在线日韩在线| 亚洲乱码国产乱码精品精| 亚洲国产视频a| 精品粉嫩aⅴ一区二区三区四区| 国产欧美一区二区精品性色| 亚洲午夜av在线| 国产乱码精品一区二区三区忘忧草| 国产一区二区三区成人欧美日韩在线观看| 欧美一区国产一区| 国产精品男人爽免费视频1| 国产欧美日韩综合| 毛片基地黄久久久久久天堂| 亚洲成色999久久网站| 欧美三区美女| 欧美精品导航| 国产精品成人va在线观看| 免费不卡亚洲欧美| 久久男女视频| 午夜电影亚洲| 国产在线视频欧美一区二区三区| 欧美精品三级在线观看| 久久精品伊人| 国产精品视频免费观看www| 欧美成人免费播放| 国产精品亚洲网站| 欧美专区中文字幕| 久久婷婷激情| 亚洲老司机av| 国产日韩欧美综合精品| 欧美视频一区二区三区在线观看| 一卡二卡3卡四卡高清精品视频| 在线看片第一页欧美| 欧美激情区在线播放| 一本色道久久加勒比88综合| 可以免费看不卡的av网站| 欧美国产精品劲爆| 国产自产女人91一区在线观看| 国模精品娜娜一二三区| 亚洲第一色中文字幕| 国产在线视频不卡二| 国产日韩一区在线| 亚洲伊人色欲综合网| 亚洲一区二区三区精品动漫| 国内精品嫩模av私拍在线观看| 亚洲精品一区二区三区99| 久久视频一区| 国产精品成人午夜| 欧美日本一道本在线视频| 亚洲精品一区二区三区不| 午夜精品视频在线| 欧美亚洲综合久久| 亚洲你懂的在线视频| 欧美一区二区三区播放老司机| 亚洲一区影音先锋| 欧美另类一区二区三区| 国产啪精品视频| 午夜精品久久99蜜桃的功能介绍| 狠狠狠色丁香婷婷综合久久五月| 毛片av中文字幕一区二区| 欧美日韩精品是欧美日韩精品| 国产精品一二三四| 99这里有精品| 亚洲精品日日夜夜| 国产日产欧美精品| 欧美三级乱码| 亚洲开发第一视频在线播放| 国产精品日日摸夜夜添夜夜av| 亚洲乱码国产乱码精品精| 国产精品一二| 亚洲精品少妇30p| 99视频精品全国免费| av成人免费| 亚洲欧美成人一区二区在线电影| 欧美国产视频在线观看| 欧美视频导航| 欧美四级剧情无删版影片| 久久国产日本精品| 性做久久久久久久免费看| 国产精品福利久久久| 国产麻豆精品在线观看| 亚洲手机视频| 亚洲免费在线播放| 亚洲欧美清纯在线制服| 欧美视频在线观看免费网址| 欧美一区二区三区精品| 午夜精品理论片| 欧美日韩一级黄| 久久久www成人免费毛片麻豆| 在线免费观看日韩欧美| 蜜臀av性久久久久蜜臀aⅴ| 久久精品视频va| 国产精品v日韩精品v欧美精品网站| 国产欧美精品一区二区三区介绍| 久久三级福利| 久久亚洲精品一区二区| 亚洲精品无人区| 欧美日韩视频一区二区| 一区二区三区国产在线| 欧美一区二区三区精品电影| 久久久噜噜噜久久| 亚洲国产美女久久久久| 最新国产乱人伦偷精品免费网站| 亚洲免费视频成人| 久久中文久久字幕| 欧美在线亚洲一区| 欧美xx69| 一区电影在线观看| 亚洲天堂av在线免费| 99这里只有久久精品视频| 国产一级久久| 一本色道久久综合亚洲精品不卡| 欧美视频导航| 欧美高清视频免费观看| 国语自产偷拍精品视频偷| 欧美亚洲动漫精品| 在线日韩欧美| 久久先锋影音| 91久久国产自产拍夜夜嗨| 国产一区二区三区日韩欧美| 欧美成人r级一区二区三区| 一区二区三区|亚洲午夜| 久久精品导航|