《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 解決方案 > NAACL 2019 | 怎樣生成語言才能更自然,斯坦福提出超越Perplexity的評估新方法

NAACL 2019 | 怎樣生成語言才能更自然,斯坦福提出超越Perplexity的評估新方法

2019-04-21
關鍵詞: CodaLab 語言模型 NLP

語言生成不夠「生動」?Percy Liang 等來自斯坦福大學的研究者提出了自然語言評估新標準。


困惑度是評估生成語言是否「自然」的最常見標準,它的值越小,則表示模型生成的句子越接近人類語言。但是這種基于統計的方法并不能很好地評估生成質量,因此本文提出一種新的評估方式 HUSE,它為自然語言生成提供了結合人類和統計評估的新架構。


怎樣度量生成的語言


生成文本是很多 NLP 任務的核心,但如何恰當地評估生成語言的「自然性」是很有難度的。好的評估指標應該不僅能捕捉到生成結果的質量,還能考慮到生成結果的多樣性,這對對話或故事生成這類需要創造性的開放性任務尤為關鍵。


人類評估通常被視為金科玉律,既能捕捉質量也不會忽略多樣性。但是,統計評估(即在參考測試集上的困惑度)也能捕捉多樣性,因為它確保模型為新句子分配合理的概率,但是困惑度(Perplexity)無法提供充分的質量評估。


目前困惑度在語言模型等領域中是應用最廣泛的度量方法,它刻畫的是語言模型估計一句話出現的概率。困惑度有一個非常直觀的理解,即我們可以認為它是平均分支系數。也就是說語言模型預測下一個詞時平均可選的數量,即模型對下一個詞的「困惑程度」。


現有的將統計評估和人類評估結合起來的方法是點對點的,這會導致有誤導性的性能評估。常見的方法是通過概率模型的困惑度來評估多樣性、通過對束搜索輸出進行人類評估來衡量質量。這就會產生一種錯覺:某個模型質量高且具備多樣性,而現實則是這個模型要么只具備多樣性,要么只能輸出高質量的結果。


斯坦福的解決方案


在這篇論文中,斯坦福的研究者采用對抗的思想,用判別器判斷句子到底是來自參考分布還是模型分布,并將最優判別器誤差率的 2 倍作為理想的評估指標。如果模型生成的句子質量較低,則最優判別器能夠對模型生成的句子進行準確地分類。如果參考分布包含該模型無法生成的句子(低多樣性),則最優判別器也能夠對來自參考分布的句子進行準確地分類。


但是,最優判別器并不可得?!溉祟悺古袆e器無法高效捕捉多樣性,訓練得到的判別器(比如基于 GAN 或人類判斷訓練得到的判別器)也無法用于嚴謹的評估。


該研究的關鍵結果,即最優分類器依賴于兩個數值:句子是模型生成的概率;句子才樣子參考分布的概率。前者可以直接從模型中計算得到,后者可以通過人類判斷的分數近似得到,從而得到圖 1 所示的二維空間。

微信圖片_20190421160931.jpg

圖 1:HUSE(Human Unified with Statistical Evaluation)是分類誤差的兩倍,即基于人類判斷分數和模型預測概率來區分文本是來自參考數據還是模型生成。HUSE 能識別出質量和多樣性存在問題的樣本。


CodaLab 與 論文復現



該研究在 CodaLab 平臺上提供了所有代碼、數據和實驗結果。值得注意的是,CodaLab 也是 Percy Liang 和斯坦福等研究者構建的一個開放平臺,它希望能為可復現研究提供管理實驗、數據等方法。


Codalab 地址:https://worksheets.codalab.org/worksheets/0x88644b5ee189402eb19d39d721d1005c

GitHub 地址:https://github.com/hughbzhang/HUSE


論文:Unifying Human and Statistical Evaluation for Natural Language Generation

微信圖片_20190421161002.jpg


論文鏈接:https://arxiv.org/pdf/1904.02792.pdf


我們該如何度量自然語言生成系統是否生成高質量和多樣性的輸出?人類評估可以捕捉質量,但是不能衡量多樣性,因為這種方法不能分辨生成結果是不是簡單地抄襲自訓練集。但同時,基于統計的度量方法(即困惑度)能很好地捕捉多樣性,但不能嚴格地度量質量,因為偶爾生成的低質量樣本并不能得到充分的懲罰。


在這篇論文中,我們提出了一個統一的框架以同時評估生成質量與多樣性,它主要通過預測一句話到底是機器生成語言還是人類語言,從而給出預測的最優誤差率。我們表示,該誤差率能通過結合人類和統計評估高效地估計,我們將使用的評估度量稱之為 HUSE。


在摘要生成和聊天對話生成中,我們證明了 (1) HUSE 能夠檢測到純粹人類評估無法發現的多樣性缺陷,(2) 退火等技術在提升質量的同時降低了 HUSE 值,即以降低多樣性為代價。


核心方法 HUSE


自然語言生成可以視為在給定先驗句 x 的情況下生成后續 y 的概率,即 p_model(y | x)?,F在我們理想的評估是判斷 p_model 與真實的參考分布 p_ref 之間的距離,如果它們之間的距離很小,那么我們就可以說生成效果很好。


具體而言,如果 y 可以是機器生成的(采樣自 p_model),也可以是人類的自然語言(采樣自 p_ref),那么類似 GAN 的概念可以定義為:


微信圖片_20190421161033.jpg


如果我們有任意判別器,它嘗試在給定 x 和 y 的情況下判斷 z,那么我們可以定義 L*為該判別器最低可能誤差率的兩倍:

微信圖片_20190421161058.png


其中 L*即度量了 p_model 和 p_pref 的相似性,它是總變分散度(variational divergenc)的線性函數。因此,如果 p_model 和 p_pref 是互斥的,那么 L*就為 0,如果是等同的,那么 L*就為 1。



對于將 (x, y) 映射到 d 維實數φ(x, y) 的任意特征映射φ,我們可以將評估分數 L(φ) 定義為:


微信圖片_20190421161118.png


其中 L(φ) 會在所有依賴于φ的函數上做最優化,因此φ包含的信息越多,L(φ) 就會越低。這表示了兩個內在關系:首先任何特征映射φ都會導致 L*的上邊界(optimistic),即 L(φ) 能檢測模型差的程度但卻又不能確定好的程度;第二向 φ添加新特征只會提升上邊界。


因為基于 (x, y) 的最優判別器只需要兩個特征就足夠了,我們可以將特征映射 φ 定義為如下:


微信圖片_20190421161139.png


此外,如果我們使用句子長度 len(y) 做正則化,它會構建更低或更緊致的分數。因此總的而言,HUSE 特征可以定義為如下:



微信圖片_20190421161159.jpg


其中 HJ(x, y) 為 20 個眾包工作者的平均回復,圖 2 展示了 Reddit 語料庫的自然語言建模與 HJ(x, y)。

微信圖片_20190421161226.jpg

圖 2:在 Reddit 語料庫中,對于句子 y 中的「typicality」人類判斷(HJ),它與其在語料庫出現的頻率高度相關(r = 0.92)。因此 HJ 是 log p_ref 很好的代理函數。


實驗


研究者使用 HUSE 評估三種不同類型的單句子自然語言生成任務:1)無條件和高熵的語言建模;2)有條件和高熵的故事生成、聊天對話系統;3)有條件和低熵的文本摘要。實驗表明,HUSE 為高熵任務上的多樣性提供直接、可解釋的評估,同時為低熵任務提供有用的模型診斷。

微信圖片_20190421161257.jpg

表 1:在文本摘要、故事生成、聊天對話系統和語言建模四種任務上最優模型的性能,評估指標為整體的擬合優度 (HUSE)、樣本質量 (HUSE-Q) 和多樣性 (HUSE-D)。HUSE 和 HUSE-Q 的范圍是 0.0(完全可與參考文本區分開來)到 1.0(完全無法與參考文本區分開來),分類誤差為 HUSE/2。當 HUSE-Q > HUSE 時,HUSE-D 的范圍可能會超出 1.0,因為它的樣本量較小。

微信圖片_20190421161315.jpg

圖 3:HUSE-D 和 HUSE-Q 之間的權衡。點表示模型,顏色表示任務。神經模型(圓圈)使用退火生成(點標簽表示 Temperature)。與右上最接近的模型越優秀,灰色的對角線表示 HUSE。任務的陰影區域表示嚴格主導該任務的模型。退火是對多樣性和質量的權衡,但是它無法輕松地增加底層模型性能(HUSE)。

微信圖片_20190421161335.jpg

圖 4:算法 1 中的二維分類問題在具備不同 Softmax Temperature 的摘要任務上的示例。每個點表示參考句子 φ_huse(x_i, y_i) 或模型生成句子 φ_huse(x_i, y'_ i)。顏色表示句子的來源 (z),陰影表示最近鄰分類器的分類置信度。

微信圖片_20190421161355.jpg

圖 5:HUSE 的估計也適用于較小的測試集規模,但是通常需要約 20 個眾包工作者對每個樣本進行評估。



本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          激情欧美日韩| 欧美大片第1页| 亚洲一区二区三区中文字幕在线| 国产精品一二三四| 亚洲一区二区三区高清| 免费的成人av| 在线看国产一区| 欧美一区二区三区四区高清| 欧美午夜精品久久久久久超碰| 老司机精品导航| 亚洲精选中文字幕| 久久久久久999| 欧美日韩播放| 国内精品久久久久久久影视麻豆| 午夜精品三级视频福利| 亚洲成人中文| 好看不卡的中文字幕| 欧美午夜美女看片| 久久成人精品视频| 欧美激情偷拍| 欧美激情在线有限公司| 欧美视频中文字幕在线| 国内精品久久久久影院 日本资源| 日韩午夜av| 欧美三级韩国三级日本三斤| 亚洲人成人一区二区三区| 久久久久久噜噜噜久久久精品| 欧美在线视频导航| 一区二区在线观看视频在线观看| 国产三级精品三级| 激情成人av在线| 欧美三日本三级三级在线播放| 亚洲女同在线| 一区二区三区四区五区在线| 久久精品在线免费观看| 亚洲综合清纯丝袜自拍| 欧美暴力喷水在线| 国产精品久久久久久久久久久久久久| 欧美一二三区精品| 国产精品免费小视频| 亚洲欧美日韩国产| 99re66热这里只有精品3直播| 欧美日韩mp4| 国产片一区二区| 欧美专区在线观看一区| 一区二区三区精品| 亚洲视频精品在线| 欧美在线观看天堂一区二区三区| 国产精品白丝av嫩草影院| 欧美色图天堂网| 久久字幕精品一区| 欧美暴力喷水在线| 性欧美暴力猛交另类hd| 国产精品香蕉在线观看| 亚洲综合视频一区| 99re6热只有精品免费观看| 欧美日韩一区二区在线观看| 亚洲图片激情小说| 国外成人性视频| 亚洲性人人天天夜夜摸| 欧美国产成人在线| 国产精品嫩草影院一区二区| 亚洲欧洲免费视频| 亚洲视频在线播放| 欧美日韩高清一区| 伊人久久亚洲热| 亚洲欧美中文日韩v在线观看| 亚洲欧美日韩成人高清在线一区| 久久一区二区三区国产精品| 欧美色精品天天在线观看视频| 久久久av毛片精品| 国产日产欧美一区| 亚洲日韩第九十九页| 亚洲五月婷婷| 欧美色偷偷大香| 榴莲视频成人在线观看| 国产亚洲日本欧美韩国| 最新中文字幕一区二区三区| 亚洲福利av| 一区二区三区欧美| 免费成人网www| 国产一级揄自揄精品视频| 国产日韩欧美一区在线| 欧美日韩xxxxx| 午夜在线视频观看日韩17c| 韩国一区电影| 国产视频一区在线| 国产日韩欧美精品一区| 免费看黄裸体一级大秀欧美| 另类酷文…触手系列精品集v1小说| 欧美成人a∨高清免费观看| 亚洲免费观看在线视频| 欧美在线亚洲| 久久久www| 久久久精品2019中文字幕神马| 麻豆精品一区二区综合av| 国产女人18毛片水18精品| 国产日韩成人精品| 亚洲第一中文字幕在线观看| 亚洲私人黄色宅男| 国产精品爱啪在线线免费观看| 一本久久精品一区二区| 欧美午夜在线一二页| 亚洲黑丝一区二区| 亚洲免费在线观看视频| 国产亚洲精品7777| 亚洲人体大胆视频| 国产日韩欧美制服另类| 韩国av一区二区三区四区| 国产欧美精品一区aⅴ影院| 国产精品v片在线观看不卡| 欧美激情综合五月色丁香小说| 国产精品乱子乱xxxx| 国产精品自在在线| 欧美高清视频一区二区三区在线观看| 亚洲东热激情| 亚洲特级片在线| 欧美日一区二区三区在线观看国产免| 国产伪娘ts一区| 久久久久99精品国产片| 欧美日本韩国| 午夜久久影院| 国产精品xxxav免费视频| 久久精品国产亚洲5555| 在线电影院国产精品| 国产九区一区在线| 国产最新精品精品你懂的| 国产一区二区三区电影在线观看| 国产午夜精品一区二区三区视频| 亚洲女人小视频在线观看| 欧美一区影院| 欧美亚洲色图校园春色| 久久亚洲精品视频| 国产精品久久久久久久午夜| 欧美日韩综合一区| 影音先锋中文字幕一区| 久久久无码精品亚洲日韩按摩| 欧美日韩在线高清| 国产精品欧美日韩久久| 久久久久久久999| 欧美va亚洲va日韩∨a综合色| 一区二区欧美日韩| 久久国产欧美日韩精品| 欧美国产日韩a欧美在线观看| 免费高清在线一区| 欧美国产日韩一二三区| 国内久久精品| 国产精品色午夜在线观看| 在线精品国产欧美| 日韩一级免费| 国产一区成人| 麻豆精品在线观看| 国产欧美日韩精品专区| 欧美亚州韩日在线看免费版国语版| 国产精品免费一区二区三区在线观看| 亚洲小说欧美另类婷婷| 亚洲电影免费观看高清完整版在线观看| 亚洲国产日日夜夜| 欧美日韩三级视频| 久久久久久夜精品精品免费| 久久久www成人免费毛片麻豆| 亚洲美女中出| 欧美福利小视频| 国产精品国产三级国产aⅴ入口| 久久人人97超碰人人澡爱香蕉| 亚洲天堂第二页| 在线午夜精品自拍| 欧美成人国产一区二区| 国产精品久久久久7777婷婷| 亚洲直播在线一区| 欧美午夜不卡影院在线观看完整版免费| 久久亚洲精品伦理| 一色屋精品视频免费看| 久久久无码精品亚洲日韩按摩| 欧美日韩免费视频| 另类亚洲自拍| 在线成人小视频| 国产日韩欧美综合| 国产一区二区三区在线免费观看| 亚洲欧美日产图| 麻豆精品视频在线观看视频| 欧美色视频日本高清在线观看| 国产精品视频九色porn| 国产麻豆一精品一av一免费| 国产精品www色诱视频| 亚洲一区二区三区免费在线观看| 欧美在线免费一级片| 国产尤物精品| 欧美一级在线视频| 一区二区三区成人| 久久久久这里只有精品| 亚洲精品欧美激情| 久久琪琪电影院| 亚洲美女视频网| 西西裸体人体做爰大胆久久久| 欧美激情区在线播放| 99国产精品私拍| 在线日韩av永久免费观看| 欧美精品久久久久久久久老牛影院| 亚洲精选91| 亚洲娇小video精品| 欧美日韩一区免费| 欧美日韩一区二区高清| 国产精品久久久久久久第一福利| 日韩视频国产视频| 亚洲国产美女久久久久| 国产日韩欧美高清免费| 久久激情视频免费观看| 欧美精品麻豆| 一本久久综合亚洲鲁鲁| 亚洲国产精品一区二区久| 午夜精品免费在线| 99re国产精品| 欧美国产大片| 看欧美日韩国产| 亚洲精品一区久久久久久| 国产精品女同互慰在线看| 欧美激情第一页xxx| 亚洲黄色成人| 午夜欧美视频| 欧美视频一区二区在线观看| 99精品欧美一区二区三区综合在线| 久久国产乱子精品免费女| 欧美日韩免费精品| 国产精品视频成人| 999在线观看精品免费不卡网站| 欧美激情一区在线观看| 尤物yw午夜国产精品视频| 国产欧美一区二区三区国产幕精品| 欧美色欧美亚洲另类二区| 欧美精品午夜视频| 欧美猛交免费看| 亚洲人成欧美中文字幕| 国产嫩草影院久久久久| 国产精品老牛| 国产精品国色综合久久| 午夜精品久久久久久久久久久久| 日韩视频在线一区| 亚洲欧美资源在线| 国产精品免费视频xxxx| 久久理论片午夜琪琪电影网| 欧美小视频在线| 亚洲精品日本| 狠色狠色综合久久| 久久综合给合| 好吊妞**欧美| 亚洲黄页一区| 一区二区国产在线观看| 亚洲欧美日韩在线综合| 韩国一区二区三区在线观看| 国产精品国产三级国产| 免费亚洲一区| 欧美激情1区2区3区| 国产精品黄视频| 99综合电影在线视频| 国产精品日本精品| 1000部国产精品成人观看| 久久亚洲一区二区三区四区| 亚洲成人在线观看视频| 国产精品www| 亚洲国产精品va| 亚洲天堂偷拍| 国产精品影音先锋| 国产精品高清一区二区三区| 国产一区在线免费观看| 亚洲国产精品999| 国产精品日韩欧美大师| 国产精品h在线观看| 国产精品亚洲一区| 西西人体一区二区| 香蕉亚洲视频| 国产精品夫妻自拍| 一本久道久久综合婷婷鲸鱼| 韩国欧美一区| 欧美韩日一区| 韩国成人理伦片免费播放| 久久亚洲精品一区二区| 亚洲激情在线视频| 在线亚洲免费| 欧美日韩在线视频首页| 欧美大香线蕉线伊人久久国产精品| 午夜精品久久久久久久蜜桃app| 亚洲国产导航| 好吊成人免视频| 另类综合日韩欧美亚洲| 亚洲特级片在线| 国产精品www色诱视频| 国产乱码精品| 亚洲午夜三级在线| 亚洲国产黄色| 亚洲精品欧美精品| 在线精品国产成人综合| 亚洲人成绝费网站色www| 另类尿喷潮videofree| 国产精品成av人在线视午夜片| 亚洲国产99精品国自产| 狂野欧美一区| 久久gogo国模啪啪人体图| 久久伊人亚洲| 久久一区二区三区av| 欧美精品久久久久久久免费观看| 欧美日韩三级电影在线| 亚洲最新在线视频| 国产日韩精品一区二区浪潮av| 国产精品成人一区| 亚洲国产欧美一区| 欧美刺激午夜性久久久久久久| 免费成人高清| 久久综合影视| 日韩午夜精品| 国产精品久久国产精品99gif| 精品成人久久| 亚洲视频二区| 欧美国产日韩亚洲一区| 99精品视频免费在线观看| 亚洲精品免费网站| 91久久精品一区| 国产精品www.| 欧美日韩国产成人高清视频| 红桃视频国产精品| 午夜国产不卡在线观看视频| 老司机精品视频一区二区三区| 国产精品久久久久毛片大屁完整版| 欧美凹凸一区二区三区视频| 亚洲一区二区三区在线播放| 国产日韩欧美中文| 亚洲已满18点击进入久久| 欧美成人精品三级在线观看|