《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 一種語音識別中核心詞快速模型優化方法
一種語音識別中核心詞快速模型優化方法
2019年電子技術應用第2期
楊 維,張才俊,馬永波
國家電網客服中心 信息技術部,天津300000
摘要: 針對國網客服電話語音識別在特定領域核心詞識別效果差的問題,提出一種基于HCLG領域詞權重增強和領域詞糾正的方法,能夠實時并快速地添加領域詞,從而動態地優化語言模型,提升語音識別效果。將該模型和算法優化應用在國網客服中心電話語音的咨詢、維修、投訴等各種領域場景中,其語音識別結果都得到大幅改善。
關鍵詞: 語音識別 HCLG
中圖分類號: TP183
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.182304
中文引用格式: 楊維,張才俊,馬永波. 一種語音識別中核心詞快速模型優化方法[J].電子技術應用,2019,45(2):9-11.
英文引用格式: Yang Wei ,Zhang Caijun,Ma Yongbo. Domain word recognition enhancement method in speech recognition[J]. Application of Electronic Technique,2019,45(2):9-11.
Domain word recognition enhancement method in speech recognition
Yang Wei,Zhang Caijun,Ma Yongbo
IT Department,State Grid Customer Service Center,Tianjin 300000,China
Abstract: Aiming at the problem that the national network customer telephone voice recognition has poor recognition of core words in specific fields, this paper proposes a method based on HCLG domain weight enhancement and domain word correction, which can add domain words in real time and quickly, to dynamically optimize the language model and improve speech recognition. The model and algorithm are optimized in the various fields of the telephone voice consultation, maintenance, complaints, etc. of the State Grid Customer Service Center. The speech recognition results have been greatly improved.
Key words : speech recognition;HCLG

0 引言

    近年來,隨著語音識別技術的逐步成熟,語音識別技術被應用到越來越多的場景中。國家電網客服中心成立人工智能中心,并深入研究語音識別核心技術以及語音在智能客服系統中的應用。當前國網語音系統面臨的一個非常關鍵的問題就是通用語音識別,在文本語料能夠覆蓋的通用場景識別中,如查天氣、問車票等,識別率很高。但是,在國網客服電話語音中,面臨大量國網業務特有的核心詞匯和說法,如專有名詞“電線桿、高壓鐵塔、絕緣子、金具、瓷瓶、拉線”等,由于其屬于特定領域,通用的領域語言模型很難正確識別。因此,如何在保證通用領域高識別率的同時,能夠快速通過模型訓練和優化來提升新領域、新核心詞的識別率,就尤為關鍵。

    目前,對于領域詞增強的方法主要是通過優化語言模型來解決,包括兩個方法:(1)領域語料獲取,即在相關領域通過收集大量的文本語料,訓練領域相關的語言模型,以達到對領域詞準確的識別;(2)分類語言模型[1],即領域詞為某一類別詞,通過類別替換獲取類別的領域語料,訓練得到類別語言模型,進而實現對領域詞的識別。

    但是,在實際應用場景中面臨3個問題:(1)領域文本語料很難獲取和收集,并且也無法覆蓋所有領域的詞,很難訓練獲得一個比較好的領域語言模型;(2)目前使用較多解決領域詞識別的是基于類的語言模型,然而這種模型需要提前定義詞類,相對復雜,對那些不屬于任何一類的詞不好建模。領域詞具有多樣性,無法用類別代替,如國網業務詞和專業詞種類較多;(3)領域詞具有實時性且不斷擴充,模型完全重新訓練到上線應用會有一定的滯后,不能實時生效。

    為了解決語音識別中領域詞的多樣性和實時性,本文設計了一種基于HCLG領域詞權重增強來優化語言模型的方法,并重構語音識別解碼流程,如圖1所示。首先獲取領域內領域詞,并對領域詞進行發音標注;然后對HCLG中對應領域詞進行權重增強,使得解碼過程在盡量不影響性能的前提下保證領域詞的識別;接著,對語音識別的結果進行后處理,即領域詞的檢查和替換。本文的方法只依賴領域詞表,可以實時添加和擴充,并實時生效。

rgzn3-t1.gif

1 HCLG領域詞權重增強

1.1 HCLG

    在大規模連續語音識別中,解碼過程一般采用加權有限狀態轉換器(Weighter Finite State Transducer,WFST)[2],因此以WFST為框架的大詞匯量連續語音識別系統被廣泛應用。語音識別的解碼過程可以分為語言模型、發音詞典規律、上下文相關和隱馬爾可夫模型等限制下,尋找一個最有可能的文本序列的過程。

    語音識別解碼器是在給定輸入特征序列下尋找最優的文本次序,尋找次序的過程其實就是在HCLG圖上檢索的過程。關于HCLG:G表示語言模型,用來解碼語法;L是發音詞典,輸入是音素,輸出是詞;C表示音素上下文關系;H是隱馬爾可夫模型,表示相似狀態之間的跳轉狀態。

1.2 領域詞權重增強

    上文中介紹了HCLG的結構,在本小節中,將詳細描述如何通過修改HCLG的權重來增強領域詞的識別效果。本文的修改只是對HCLG中的G語言模型進行修改,可以將HCLG簡化表示如圖2所示。

rgzn3-t2.gif

    本文提出的在HCLG中對領域詞進行增強主要是通過構造領域詞狀態轉移圖(下文中用S.FST表示),然后將S.FST與現有的HCLG進行合并生成HCLGS。本方法能夠通過自定義S.FST中詞的權重,增強HCLG中對應詞的權重,同時可以共享HCLG中原有詞的權重,保證了領域詞的識別。

    (1)生成領域詞S.FST

    假設領域詞為“國家智能電網”,可以將領域詞拆分為已有詞表詞的組合,即:“國家”、“智能”、“電網”。根據領域詞可以生成對應的S.FST,如圖3所示。

rgzn3-t3.gif

    (2)生成HCLGS

    根據上個模塊生成的S.FST,將S.FST與HCLG進行合并,如圖4所示。合并操作即將原S.FST中的邊合并到HCLG對應的邊上,在本文例子中即將“國家”和“智能”連接,對應的權重為用戶自定義。

rgzn3-t4.gif

2 領域詞糾正

    上小節中,在HCLG中對領域詞的權重進行增強,增加了解碼階段領域詞出現的概率。但是,由于要保證語音識別結果的正確性,不能對在HCLG中對領域詞增加過大的權重,以免影響整體解碼的效果,因此需要對解碼后的結果進行領域詞增強。在解碼過程中,解碼識別錯誤的領域詞往往是由于發音相似但是字形不對而導致的,因此,后處理的過程需要匹配到相似發音的領域詞,從而進行替換。為了替換的準確性,本文以音素為基本單位進行領域詞的替換。后處理主要涉及兩部分:領域詞檢索和發音相似度度量。

    在語音識別過程中,解碼的效率往往在實際應用中比較重要,因此需要設計一種快速的領域詞查找的方法,實現高效的領域詞替換。本文提出一種基于音素樹的領域詞快速查找方法。

2.1 音素檢索樹

    字典樹,又稱Trie樹、前綴樹,是一種樹形結構,是哈希樹的變種,是一種用于快速檢索的多叉樹結構。典型應用是用于統計和排序大量的字符串(但不僅限于字符串)[3],所以經常被搜索引擎系統用于文本詞頻統計。它能最大限度地減少無謂的字符串比較,查詢效率比哈希表高。本文的音素串查找可以看作是字符串查找,即檢索相同的音素串,因此可以利用字典樹建立音素檢索樹,從而進行音素的匹配查找。

    首先,需要將領域詞轉換為音素串,如“電網、斷線”轉換為音素串則為“d ian1,w ang3;d uan1,x ian4”,將領域詞轉換為領域詞音素串列表,從而轉換為對應的音素前綴樹,如圖5所示。

rgzn3-t5.gif

    在圖2中,一個單字由兩個節點表示,在有漢字表征的節點可以看作一個字或詞的結束節點,如節點“ian2 電”表征這個節點是字的結束節點,節點“ang2電網”表征這個節點是詞的結束節點。即在字典樹種,每個音素標注一個節點,每個字或詞表征一個因素的路徑,并記錄在路徑的結束節點。

2.2 音素檢索

    上一節定義和建立了音素檢索樹,本模塊描述音素樹的檢索和替換過程主要分兩種情況:精確匹配和模糊匹配。

    精確匹配為字典樹的檢索過程,直接進行字符串匹配,如果匹配到對應字或詞的節點,即表明查找到對應的音素出串,如輸入音素樹“h ao3 b a1”(對應漢字為“號吧”),則匹配到”h ao3”,字符串中存在相似的發音,則替換為“好吧”。具體字典樹的檢索算法:

    (1)總是在字典樹的根節點開始,且對樹的根節點為空。

    (2)掃描第一層各個節點獲得查找音素的節點,并根據序列的下一個音素選擇對應的字數并轉到該子樹繼續檢索所在層的各個節點,如果查找到葉子節點,則轉到步驟(3);否則,繼續選擇對應的子樹搜索。

    (3)匹配到葉子節點,則獲取葉子節點上次數,即完成匹配;若未匹配到葉子節點,則向上追溯最近的字或詞節點,匹配成功;若未匹配到任何字或詞節點,則匹配失敗。

    對于模糊匹配,要考慮到發音相似的音素串匹配,比如業務詞“電網“對應的發音音素為”d ian1 w ang3”,但是在語音識別的過程中,可能聲學模型會輸出“d ian1 w ang4”,對應的音調發生問題,但是其對應的還是業務詞“電網”。因此,在這種情況下,要考慮發音相似的情況。本文只考慮到音調的相似度,根據經驗可得,對于聲調3聲和4聲可認為為同一種音素。在檢索時,當匹配音素節點時,相同音素且不同聲調的,可認為為同一種發音,即匹配節點成功。當然,可以設計更為復雜的相似度算法進行檢索,本文目前沒有深入設計。

3 實驗

    本文實驗基于國網客服人工智能中心和清華大學語音語義實驗室聯合研發的語音識別系統,其中聲學模型是由100h的863開放語音數據[4]和Kaldi[5]的DNN訓練工具訓練所得。實驗中具體參數:語音特征維度為39維特,音素集使用中文的拼音。對于語言模型,本文采用srilm[6]工具和新聞數據sogouT[7]進行訓練得到一個領域通用的語言模型,并基于國網客服電話語音特定領域詞進一步訓練優化。

    在測試時,選取國網客服各領域核心詞匯列表(如“應急電壓、應急電源”等),進行了4組實驗:(1)直接使用語音識別系統進行識別;(2)將地名詞進行HCLG加強,進行語音識別;(3)將地名詞進行語音識別后糾正;(4)使用HCLG增強和識別后糾正。具體實驗結果如表1所示。

rgzn3-b1.gif

    通過實驗可以看出,基于HCLG增強的模型優化和基于后處理的核心詞糾正都能顯著提高領域詞的識別效果,相對錯誤率下降(11.54-8.18)/11.54=29.1%。

4 結論

    本文提出了一種針對不同領域核心詞的模型優化方法,通過對HCLG的增強以及識別后處理優化,該方法能夠快速全面地提高領域詞的識別準確率。這種方法能夠快速且實時地增加領域詞,以適應語音識別在不同領域場景的使用。同時,該方法克服了之前限定類別領域詞識別的限制,可以更加靈活地添加領域詞,減少了領域詞添加的復雜性。本文提出的領域詞增強的方法可成功解決國網客服的電話語音的核心詞識別優化問題。

參考文獻

[1] 楊林國.詞類擴充方法在語音識別中的應用[J].電子技術應用,2014,40(6):123-125.

[2] MOHRI M,PEREIRA F,RILEY M.Weighted finite-state transducers in speech recognition[J].Computer Speech & Language,2002,16(1):69-88.

[3] 孫芳媛.基于倒排索引和字典樹的站內搜索引擎的設計與實現[D].哈爾濱:哈爾濱工業大學,2016.

[4] 李愛軍,王天慶,殷治綱.863語音識別語音語料庫RASC863——四大方言普通話語音庫[C].第七屆全國人機語音通訊學術會議(NCMMSC7)論文集,2003:274-277.

[5] POVEY D,GHOSHAL A,BOULIANNE G,et al.The Kaldi speech recognition toolkit[C].IEEE 2011 Workshop on Automatic Speech Recognition and Understanding.IEEE Signal Processing Society,2011.

[6] STOLCKE A.SRILM-an extensible language modeling toolkit[C].Seventh International Conference on Spoken Language Processing,2002.

[7] Liu Yiqun,Chen Fei,Kong Weize,et al.Identifying Web spam with the wisdom of the crowds[J].ACM Transaction on the Web,2012,6(1):1-30.



作者信息:

楊  維,張才俊,馬永波

(國家電網客服中心 信息技術部,天津300000)

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          六月婷婷久久| 国产一区二区三区四区五区美女| 久久精品国产亚洲一区二区三区| 欧美日一区二区三区在线观看国产免| 日韩亚洲成人av在线| 欧美一区二区视频网站| 日韩一级免费| 在线看国产日韩| 久久精品国产96久久久香蕉| 久久久午夜精品| 亚洲专区免费| 久久躁日日躁aaaaxxxx| 久久av红桃一区二区小说| 欧美日本韩国一区二区三区| 欧美激情偷拍| 欧美日本一区二区三区| 国产精品久久久久久久久久三级| 精品动漫一区| 亚洲成人资源网| 午夜欧美精品久久久久久久| 久久这里有精品15一区二区三区| 免费在线日韩av| 欧美日韩xxxxx| 欧美国产欧美亚州国产日韩mv天天看完整| 国产真实乱偷精品视频免| 国产精品一级在线| 裸体一区二区三区| 欧美福利电影网| 亚洲国产综合在线| 亚洲少妇一区| 免费h精品视频在线播放| 一本一本大道香蕉久在线精品| 一本一本久久a久久精品综合妖精| 久久只有精品| 韩国av一区二区| 亚洲色在线视频| 欧美日韩久久不卡| 亚洲深夜影院| 国产欧美91| 欧美激情一区| 欧美日韩国产成人| 亚洲手机成人高清视频| 欧美特黄a级高清免费大片a级| 久久综合婷婷| 国产酒店精品激情| 久久久精品日韩欧美| 久久精品综合| 欧美精品91| 久久精品一区四区| 国产精品一区一区| 亚洲精品免费在线| 欧美精品少妇一区二区三区| 国产真实精品久久二三区| 亚洲精品一区在线观看| 亚洲日本电影| 欧美精品日韩| 韩国女主播一区二区三区| 国产精品免费看片| 国产精品区一区二区三| 亚洲欧美成aⅴ人在线观看| 一区二区三区 在线观看视| 亚洲一区二区三区免费观看| 香蕉免费一区二区三区在线观看| 国产精品乱码久久久久久| 亚洲精品久久久久久一区二区| 欧美国产日韩二区| 99精品欧美一区二区蜜桃免费| 亚洲久色影视| 国产欧美一二三区| 激情成人亚洲| 欧美另类久久久品| 狠狠v欧美v日韩v亚洲ⅴ| 在线观看亚洲精品| 久久蜜桃av一区精品变态类天堂| 欧美国产第一页| 欧美日韩国产丝袜另类| 久久久久国色av免费看影院| 欧美va亚洲va国产综合| 欧美综合二区| 亚洲欧美成人| 国产精品自拍网站| 国产在线拍揄自揄视频不卡99| 欧美日韩成人激情| 欧美伦理影院| 久久这里只精品最新地址| 久久久久久久综合日本| 一区二区三区回区在观看免费视频| 久久国产精品黑丝| 国产亚洲精品bv在线观看| 欧美日韩一区二区欧美激情| 国产字幕视频一区二区| 一区福利视频| 欧美一区二区视频97| 在线看欧美视频| 欧美日韩免费观看一区=区三区| 国产精品永久免费观看| 麻豆成人在线| 亚洲国产一区视频| 亚洲日本中文| 国产亚洲一区二区三区在线观看| 亚洲精品乱码久久久久久久久| 欧美午夜免费电影| 亚洲国产成人久久| 欧美区在线播放| 嫩模写真一区二区三区三州| 国产亚洲人成a一在线v站| 欧美三级网址| 中文在线资源观看视频网站免费不卡| 久久久久久亚洲综合影院红桃| 在线视频欧美日韩精品| 欧美日韩综合一区| 欧美一区2区三区4区公司二百| 国产婷婷一区二区| 一本色道久久88精品综合| 亚洲国产成人精品久久| 国产亚洲精品激情久久| 国产欧美日韩一级| 国产日韩欧美夫妻视频在线观看| 亚洲欧美在线磁力| 欧美性做爰猛烈叫床潮| 久久全球大尺度高清视频| 欧美性jizz18性欧美| 国产欧美精品一区二区三区介绍| 国产一区二区精品久久99| 久久精品免视看| 国产精品久久久久久久久久久久久久| 在线精品视频在线观看高清| 免费久久99精品国产| 久久久五月天| 久久成人免费电影| 亚洲综合电影| 久久久精品久久久久| 欧美性猛交xxxx乱大交退制版| 亚洲电影毛片| 在线视频日韩精品| 欧美黄色片免费观看| 欧美精品乱码久久久久久按摩| 先锋a资源在线看亚洲| 玉米视频成人免费看| 亚洲激情一区二区三区| 亚洲国产精品久久久久秋霞蜜臀| 欧美色视频日本高清在线观看| 久久久久高清| 亚洲综合清纯丝袜自拍| 国产精品你懂得| 欧美激情视频一区二区三区在线播放| 欧美激情一区二区三区在线视频观看| 91久久夜色精品国产网站| 久久久欧美精品sm网站| 欧美国产激情| 国产婷婷色综合av蜜臀av| 销魂美女一区二区三区视频在线| 国产精品免费视频xxxx| 在线免费观看日韩欧美| 在线观看中文字幕亚洲| 老司机精品导航| 亚洲午夜精品视频| 国产精品国产三级国产专播精品人| 亚洲综合视频在线| 欧美国产亚洲精品久久久8v| 亚洲美女黄网| 在线一区二区三区做爰视频网站| 国产精品理论片| 亚洲高清久久久| 一本色道久久综合亚洲二区三区| 一本一本久久a久久精品牛牛影视| 国内偷自视频区视频综合| 久热这里只精品99re8久| 欧美午夜在线观看| 亚洲第一区中文99精品| 欧美成人精品高清在线播放| 亚洲精品一区二区三区在线观看| 亚洲欧美激情视频| 久久久精品2019中文字幕神马| 久久久久成人精品免费播放动漫| 中国av一区| 欧美一区二区三区喷汁尤物| 欧美大尺度在线| 一本大道久久a久久综合婷婷| 久久aⅴ国产紧身牛仔裤| 久久精品一级爱片| 一本色道久久88综合亚洲精品ⅰ| 国产在线乱码一区二区三区| 欧美日本亚洲| 亚洲精品综合久久中文字幕| 午夜精品亚洲一区二区三区嫩草| 亚洲自拍偷拍色片视频| 国产一级久久| 免费高清在线一区| 欧美另类专区| 欧美成人日韩| 欧美极品欧美精品欧美视频| 久久精品99| 一区二区三区在线高清| 欧美另类视频| 久久国产精彩视频| 国产性天天综合网| 一区电影在线观看| 中日韩视频在线观看| 老司机亚洲精品| 亚洲午夜一区二区三区| 欧美在线free| 久久精品在线视频| 国产在线高清精品| 欧美+亚洲+精品+三区| 亚洲成人原创| 欧美日韩在线不卡一区| 国产精品久久久一区二区三区| 99一区二区| 蜜臀99久久精品久久久久久软件| 国产自产高清不卡| 欧美在线视频观看免费网站| 亚洲精品国产精品乱码不99按摩| 免费欧美高清视频| 91久久精品国产91久久| 国外成人在线| 国内精品99| 欧美亚洲色图校园春色| 欧美一级精品大片| 欧美精品在线观看| 欧美亚洲在线| 国产精品成人一区二区网站软件| 国产精品久久国产精麻豆99网站| 日韩视频免费观看高清完整版| 久久免费视频在线观看| 亚洲神马久久| 国产精品嫩草99av在线| 国产精品扒开腿做爽爽爽视频| 久久亚洲精品中文字幕冲田杏梨| 国产精品xnxxcom| 中国av一区| 中文精品99久久国产香蕉| 欧美日产一区二区三区在线观看| 日韩视频永久免费| 国产精品久久久久毛片软件| 亚洲日本在线视频观看| 久久久久国产成人精品亚洲午夜| 亚洲午夜女主播在线直播| 国产日产欧美a一级在线| 免费日韩成人| 亚洲在线视频观看| 最新成人av网站| 99精品视频免费| 国产日韩在线播放| 亚洲国产精品一区在线观看不卡| 91久久精品国产91久久性色| 久久久无码精品亚洲日韩按摩| 亚洲一区二区三区成人在线视频精品| 欧美一区二区三区久久精品茉莉花| 农夫在线精品视频免费观看| 国产亚洲精品aa午夜观看| 久久久精彩视频| 久久九九久精品国产免费直播| 亚洲自拍电影| 欧美v国产在线一区二区三区| 韩国视频理论视频久久| 亚洲欧美春色| 国产精品美女主播| 国产综合精品| 欧美伊人久久大香线蕉综合69| 国产日韩欧美在线观看| 另类综合日韩欧美亚洲| 99亚洲一区二区| 亚洲欧美激情一区二区| 老鸭窝毛片一区二区三区| 国产精品一区二区三区乱码| 日韩五码在线| 中国女人久久久| 亚洲精品男同| 一本色道久久加勒比精品| 亚洲三级免费观看| 欧美日本成人| 国产精品激情电影| 久久人人爽人人爽| 国产欧美一区二区三区在线看蜜臀| 欧美深夜福利| 亚洲免费观看视频| 在线观看视频欧美| 亚洲一区免费在线观看| 亚洲第一区中文99精品| 伊人成人在线视频| 极品av少妇一区二区| 精品88久久久久88久久久| 久久爱另类一区二区小说| 亚洲欧洲一区二区在线观看| 在线观看亚洲专区| 亚洲视频网在线直播| 国内久久视频| 国产日韩欧美精品一区| 亚洲免费不卡| 亚洲无人区一区| 另类av一区二区| 99国产精品久久久久久久| 另类欧美日韩国产在线| 欧美精品二区三区四区免费看视频| 欧美激情无毛| 欧美视频在线看| 国外成人在线视频网站| 国产日韩精品一区| 久久久久久久久伊人| 国产精品区一区| 欧美在线视频免费| 先锋影音国产一区| 99re6热在线精品视频播放速度| 亚洲激情黄色| 欧美日韩国产成人在线观看| 亚洲国产成人精品久久久国产成人一区| 在线视频精品一| 国产精品一区一区三区| 亚洲成人原创| 激情欧美丁香| 亚洲成人直播| 国产精品观看| 国产精品久久久一区二区| 欧美欧美午夜aⅴ在线观看| 久久精品免费播放| 亚洲一区二区久久| 久久久欧美精品| 精东粉嫩av免费一区二区三区| 美女脱光内衣内裤视频久久网站| 久热re这里精品视频在线6| 在线不卡中文字幕| 在线亚洲电影| 亚洲韩国一区二区三区| 欧美日韩第一页| 欧美激情1区2区3区| 亚洲高清色综合| 午夜精品福利一区二区蜜股av|