《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 深度 | 自然語言處理的一大步,應用Word2Vec模型學習單詞向量表征

深度 | 自然語言處理的一大步,應用Word2Vec模型學習單詞向量表征

2018-08-01

在常見的自然語言處理系統中,單詞的編碼是任意的,因此無法向系統提供各個符號之間可能存在關系的有用信息,還會帶來數據稀疏問題。使用向量對詞進行表示可以克服其中的一些障礙。本文通過推理、范例及數學公式介紹了從原始文本中學習「詞嵌入」的模型 Word2Vec。該模型通常用在預處理階段,可以提高計算效率。

微信圖片_20180801154320.jpg



讓我們用推理、范例及數學公式來介紹 Word2Vec


引言


Word2Vec 模型用于學習被稱為「詞嵌入」的單詞向量表示,通常用在預處理階段,之后,學習到的詞向量可以被輸入到一個判別模型(通常是一個 RNN)中,進而生成預測或被用于處理其他有趣的任務。


為什么要學習詞的嵌入表示


圖像和音頻處理系統與豐富的高維數據集一起工作,其處理的圖像數據被編碼為各個原始像素強度的向量,因此所有信息都被編碼在數據中,從而可以很容易地建立起系統中各種實體之間的關系(比如貓和狗)。


但是,在常見的自然語言處理系統中,單詞被視為離散的原子符號,因此」貓」可以被表示為 Id537 而」狗」可以被表示為 Id143。這些編碼是任意的,因而無法向系統提供各個符號之間可能存在關系的有用信息。這意味著該模型在處理關于「狗」的數據時無法充分利用關于「貓」的知識(例如它們都是動物、寵物、有四只腳等)。


將單詞表示為獨特、離散的序列號還會導致數據稀疏問題,這通常意味著我們可能需要更多數據才能成功地訓練統計模型,而使用向量對詞進行表示可以克服其中的一些障礙。


舉例來說:


傳統的自然語言處理方法涉及到許多語言學本身的知識。理解諸如音素和語素之類的術語是相當基礎和必要的,因為有許多語言學分支致力于這樣的研究。我們來看看傳統的自然語言處理如何試圖理解下面的單詞。


假設我們的目標是收集關于這個詞的一些信息(表征它的情感,找到它的定義等)。利用我們的語言學知識可以將這個詞分解成 3 個部分。



微信圖片_20180801154346.jpg

微信圖片_20180801154418.jpg

深度學習最基本的層次是表示學習。在這里,我們將通過相同方法在大規模數據集上為單詞構建向量表示。


詞向量


微信圖片_20180801154447.jpg


我們把每一個單詞表示為一個 d 維的向量。在這里 d=6。我們希望根據這個句子,為每一個單獨的詞構建它的向量表示。


微信圖片_20180801154520.jpg


現在讓我們來思考一下如何填充這些值。我們希望這些值能夠一定程度上表示這個單詞和它的上下文、含義或語義信息。一種方法是構建共現矩陣。


共現矩陣包含了語料庫(或訓練集)中每一個單詞同出現在它后一個單詞的統計信息。下表是上面所示句子的共現矩陣。


微信圖片_20180801154613.jpg

微信圖片_20180801154646.jpg



通過這個簡單的矩陣,我們能夠獲得非常有用的信息。例如,「love」和「like」這兩個詞對名詞(NLP 和 dogs)的計數都是 1。他們對「I」的計數也是 1,這表明這些詞很可能是某種動詞。對于遠比一個句子更大的數據集,可以預料的是這種相似性會體現得更加清晰,因為「like」、」love」和其他具有相似上下文的同義詞將開始具有相似的向量表示。


這是一個好的開始,但應該注意每個單詞的維度將隨著語料庫的大小線性增加。如果我們有一百萬詞(在自然語言處理任務中并不算很多),我們將會得到一個一百萬乘一百萬的非常稀疏(有很多 0)的矩陣,存儲效率很低。后來人們在探索更好的詞向量表示上取得了很多進展。其中最著名的是 Word2Vec。


正式介紹 


向量空間模型(VSM)表示(嵌入)連續向量空間中的單詞,其中語義上相似的單詞被映射到相鄰的點(「都嵌在彼此附近」)。向量空間模型在自然語言處理中有著悠久、豐富的歷史,但是所有方法都以某種方式依賴于分布假說,該假說認為出現在相同語境中的詞語具有相似的語義?;谶@一原則的方法可以被分為兩類:


 1. 基于計數的方法(例如隱性語義分析)

 2. 預測方法(例如神經概率語言模型)


二者的區別在于:


基于計數的方法計算某個詞在大型文本語料庫中與其相鄰詞匯共同出現的頻率的統計數據,然后將這些統計數據映射到每個詞的小而密集的向量。


預測模型直接嘗試根據學習到的近鄰單詞的小密集嵌入向量(考慮模型的參數)來預測單詞。


Word2vec 是一種用于從原始文本中學習詞嵌入的模型,它有很高的計算效率。它主要有兩種實現方式,一種是連續詞袋模型(CBOW),另一種是 Skip-Gram 模型。這兩種方式在算法上是相似的,唯一的差別在于 CBOW 從源上下文單詞中預測目標單詞,而 Skip-Gram 則恰恰相反,它根據目標單詞預測源上下文單詞。


接下來,我們將重點討論 skip-gram 模型。


應用到的數學知識


神經概率語言模型一般使用最大似然原則進行訓練,其目標是要最大化在給定前面的單詞 h(對于「history」)時的下一個單詞 wt(對于「target」)的 softmax 概率


微信圖片_20180801154713.jpg

其中 score(wt, h) 計算目標詞 wt 與上下文 h 的相容性(常用點積)。


我們通過在訓練集上最大化它的對數似然來訓練這個模型。所以,我們要最大化以下損失函數:


微信圖片_20180801154737.jpg


這為語言建模提供了一個合適的標準化概率模型。


我們可以用另一種形式來更好地展示這種方法,它可以清晰地展示在訓練過程中為了最大化目標函數而不斷改變的選擇變量(或參數)。


我們的目標是找到可以用于預測當前單詞的周圍詞匯的向量表示。我們尤其希望最大化我們在整個語料庫上的平均對數概率:


微信圖片_20180801154757.jpg


這個等式的主要含義是,在當前單詞的一定窗口范圍 c 內出現的單詞 wt 存在一定的概率 p。這個概率同當前詞 wt 和我們設定的參數 theta 相關。我們希望設定的參數 theta 可以最大化整個語料庫的上述概率。


基本參數化:Softmax 模型


基本的 skip-gram 模型定義了經過 softmax 函數計算的概率 p。如果我們的詞匯表中有 N 個詞,而我們希望學習的嵌入向量的維度為 k,那么我們可以設定 wi 是 N 維的 ont-hot 向量,theta 是一個 N×K 的嵌入矩陣,從而有:


微信圖片_20180801154816.jpg

值得注意的是,在學習之后,矩陣 theta 可以被認為是嵌入查找矩陣。


在架構方面,它是一個簡單的三層神經網絡。


微信圖片_20180801154837.jpg


 1. 使用一個 3 層神經網絡(1 個輸入層+ 1 個隱藏層+ 1 個輸出層)。

 2. 輸入一個詞,并訓練模型來預測它的相鄰詞匯。

 3. 刪除最后一層(輸出層)并保留輸入和隱藏層。

 4. 現在,輸入一個詞匯表中的單詞。在隱藏層給出的輸出是輸入單詞的「單詞嵌入」。


限制這種參數化方法在大規模語料中的應用的一個主要缺點是計算的效率。具體來說,為了計算單次的正向傳播過程,我們需要對整個語料庫的詞匯進行統計,以計算 softmax 函數。這對于大型數據集來說是非常昂貴的,所以我們希望能夠在這個模型和計算效率之間找到一個平衡。


提高計算效率


對于 word2vec 中的特征學習,我們不需要完整的概率模型。CBOW 和 skip-gram 模型是使用二元分類目標(邏輯回歸)來訓練的,其目標是要在相同的上下文中將真實目標詞語(wt)與 k 個偽(噪音)詞語 -w 進行區分。


微信圖片_20180801154900.jpg


當模型給真實單詞分配更高的概率并且將低概率分配給噪音詞時,我們可以得到最大化的目標函數。從技術上來講,我們一般稱之為負采樣,它提出的更新近似于 softmax 函數更新的極限。但是從計算角度來看,它擁有很高的效率,因為這樣一來損失函數的復雜度僅僅依賴于我們選擇的噪音詞的數量(k)而不是詞匯表(V)中的所有單詞。這可以大大提高訓練的速度。像 Tensorflow 這樣的軟件包使用了一種非常相似的損失函數,稱為噪聲對比估計(NCE)損失。


SKIP-GRAM 模型的直觀感受


以這個數據集為例:


the quick brown fox jumped over the lazy dog


我們首先構建一個包含所有單詞和它們的上下文的數據集。現在,讓我們保持原始定義,并將「上下文」定義為目標單詞左側和右側的窗口單詞。設定窗口大小為 1,我們可以得到(上下文,目標)對形式的數據集。


([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox), ...


回想一下,skip-gram 會顛倒上下文和目標,試圖根據目標詞預測每個上下文單詞,因此任務變為從」quick」預測」the」和」brown」以及從」brown」預測」quick」和」fox」等。


這樣一來我們的數據集可以整理為(輸入,輸出)對,如下所示:


(quick, the), (quick, brown), (brown, quick), (brown, fox), ...


目標函數在定義上依賴于整個數據集,但是我們通常使用隨機梯度下降(SGD)方法來對模型進行優化,即每次只使用一個例子(或者每次使用一小批數據,每批的數量通常在 16 到 512 之間)。接下來讓我們看一下每一步的訓練過程。


讓我們想象一下上述例子的訓練過程。這里的目標是從 the 預測 quick。我們從一個噪聲分布 P(w)(通常是單字符分布)中選取 num_noise 個噪聲樣本(單字符分布假設每個單詞的出現與所有其他單詞無關,即我們可以將生成過程看作一個按序列擲骰子的過程)


為了簡單起見,我們設定 num_noise = 1,我們選擇 sheep 作為一個噪聲樣本。接下來我們計算這對觀察到的和有噪聲的例子的損失,即在」t」時刻的目標函數變成:


微信圖片_20180801154925.jpg


我們的目標是要對嵌入參數進行更新


 theta 用來最大化這個目標函數。我們通過導出與之相關的損失梯度來實現這一目標。


微信圖片_20180801154951.jpg


然后,我們通過向梯度方向邁出一小步來更新嵌入。當我們在整個訓練集上重復進行這個過程時,可以對每個單詞產生「移動」嵌入向量的效果,直到模型成功地區分真實單詞和噪音單詞為止。


我們可以通過將它們向下投影到 2 維來可視化學習到的向量。當我們觀察這些可視化時,很明顯這些向量捕獲到了一些關于單詞的語義信息以及詞與詞之間的關系,這在實際中是非常有用的。

微信圖片_20180801155007.jpg


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美激情bt| 精品成人一区二区三区四区| 一区二区三区久久网| 国产精品热久久久久夜色精品三区| 黑丝一区二区| 欧美日本一道本| 一区二区三区视频在线| 欧美日在线观看| 免费永久网站黄欧美| 亚洲愉拍自拍另类高清精品| 亚洲影院污污.| 久久只有精品| 在线播放亚洲一区| 久久动漫亚洲| 伊人久久成人| 久久久99久久精品女同性| 午夜在线视频观看日韩17c| 欧美日韩在线亚洲一区蜜芽| 欧美成人精品在线视频| 国产免费成人av| 国产精品网站一区| 欧美日韩综合一区| 亚洲一区日本| 亚洲成在线观看| 欧美日韩国产综合视频在线| 国产精品每日更新在线播放网址| 欧美精品aa| 一区二区精品国产| 精东粉嫩av免费一区二区三区| 欧美日韩中文在线| 久久精品亚洲精品| 久色成人在线| 亚洲精选成人| 在线观看成人av| 樱桃视频在线观看一区| 亚洲精品视频在线| 国产在线精品一区二区夜色| 欧美日本在线一区| 亚洲人成在线播放网站岛国| 亚洲精品久久久久中文字幕欢迎你| 一区二区欧美在线| 亚洲深爱激情| 久久国产精品99国产精| 在线中文字幕一区| 噜噜噜久久亚洲精品国产品小说| 怡红院精品视频| 国产欧美日韩视频一区二区| 久久夜色精品国产欧美乱| 亚洲第一成人在线| 欧美在线首页| 亚洲一区二区三区乱码aⅴ| 欧美激情精品久久久久久大尺度| 国产精品免费网站在线观看| 国产午夜亚洲精品不卡| 国产精品久久国产愉拍| 欧美日韩ab| 欧美日本一区| 日韩视频免费在线观看| 亚洲一区二区三区四区五区午夜| 性欧美长视频| 亚洲精品久久| 国产在线视频欧美| 国产日韩欧美日韩| 国产精品99久久不卡二区| 亚洲福利免费| 国产日韩欧美| 这里是久久伊人| 国产精品视频福利| 99精品视频网| 欧美午夜一区二区| 亚洲免费精彩视频| 亚洲一级黄色片| 亚洲福利在线视频| 亚洲欧美在线x视频| 亚洲免费av电影| 欧美激情影音先锋| 亚洲黄色有码视频| 一区二区三区偷拍| 欧美一区二区三区电影在线观看| 国产欧美va欧美不卡在线| 麻豆av一区二区三区久久| 亚洲激情第一区| 国产一区二区观看| 一本大道av伊人久久综合| 国产一区 二区 三区一级| 国产情人综合久久777777| 国产亚洲精品v| 欧美日韩一区二区三区在线视频| 国产视频自拍一区| 欧美大片免费| 91久久精品国产91久久| 国产精品视频午夜| 久久人人爽爽爽人久久久| 亚洲国内精品| 亚洲精品少妇30p| 国产乱码精品1区2区3区| 在线日韩一区二区| 亚洲在线播放| 亚洲第一精品在线| 久久精品亚洲一区二区三区浴池| 一本色道久久加勒比精品| 亚洲国产精品一区二区尤物区| 欧美在线二区| 国产精品日韩欧美大师| 一区电影在线观看| 久久久久www| 日韩西西人体444www| 一本色道久久综合亚洲精品按摩| 久久久久久久一区二区三区| 亚洲一区国产精品| 一区二区三区免费观看| 亚洲午夜久久久久久久久电影网| 亚洲黄色在线看| 在线观看免费视频综合| 一本久久综合亚洲鲁鲁| 国产欧美精品国产国产专区| 亚洲精品久久久久久久久| 欧美日韩另类在线| 亚洲人在线视频| 国内精品模特av私拍在线观看| 欧美不卡高清| 激情欧美一区二区三区| 久久久久久久久一区二区| 欧美日韩第一区日日骚| 亚洲精品国产精品久久清纯直播| 影音先锋日韩精品| 欧美人与禽猛交乱配视频| 亚洲在线视频网站| 久久国产精品亚洲va麻豆| 欧美精品一区二区三区四区| 久热综合在线亚洲精品| 欧美日韩人人澡狠狠躁视频| 亚洲一区综合| 亚洲人午夜精品免费| 激情综合自拍| 亚洲国产二区| 亚洲电影免费| 欧美在线不卡视频| 国产精品久久久久久久免费软件| 久久精品国产亚洲5555| 欧美一区二区成人| 狠狠色2019综合网| 欧美精品三级日韩久久| 亚洲专区免费| 欧美一级在线播放| 亚洲裸体俱乐部裸体舞表演av| 亚洲精品中文字幕有码专区| 久久精品国产一区二区三| 亚洲视频axxx| 国产精品www色诱视频| 欧美福利专区| 国产精品青草久久久久福利99| 久久精品日产第一区二区| 一区二区三区精密机械公司| 99在线|亚洲一区二区| 亚洲最新中文字幕| 久久久久久国产精品mv| 99亚洲视频| 美女视频黄免费的久久| 国产精品视频一区二区高潮| 一本一道久久综合狠狠老精东影业| 欧美无乱码久久久免费午夜一区| 亚洲欧美成人综合| 亚洲人成人77777线观看| 欧美劲爆第一页| 欧美华人在线视频| 欧美精品一区二区三区高清aⅴ| 悠悠资源网久久精品| 夜色激情一区二区| 国产精品伊人日日| 久久精品91久久久久久再现| 欧美日韩国产综合一区二区| 久久全国免费视频| 欧美亚洲色图校园春色| 性色av一区二区三区在线观看| 国精品一区二区三区| 亚洲黄网站黄| 亚洲一级免费视频| 欧美在线视频日韩| 欧美成年视频| 欧美一区二区视频观看视频| 欧美在线免费| 性色av香蕉一区二区| 国产欧美日韩免费看aⅴ视频| 亚洲丰满在线| 亚洲狼人综合| 亚洲欧美在线观看| 久久综合999| 国产精品成人一区| 亚洲人成亚洲人成在线观看图片| 午夜在线电影亚洲一区| 欧美日产在线观看| 久久国产天堂福利天堂| 欧美私人啪啪vps| 欧美精品激情在线观看| 欧美日韩a区| 欧美日韩爆操| 亚洲一区二区三区乱码aⅴ| 免费成人你懂的| 精品成人在线观看| 亚洲大黄网站| 黄网站免费久久| 欧美第一黄网免费网站| 亚洲丶国产丶欧美一区二区三区| 久久久国产视频91| 在线日韩欧美| 久久成人18免费观看| 欧美日本一区| 国产日韩欧美自拍| 亚洲欧美另类久久久精品2019| 国产精品99久久久久久有的能看| 久久久无码精品亚洲日韩按摩| 亚洲国产精品毛片| 在线视频日本亚洲性| 国产美女搞久久| 亚洲亚洲精品三区日韩精品在线视频| 久久精品亚洲一区二区三区浴池| 在线播放国产一区中文字幕剧情欧美| 亚洲欧美视频一区二区三区| 蜜臀va亚洲va欧美va天堂| 久久精品系列| 欧美在线观看视频| 亚洲人体影院| 久久激情综合网| 亚洲女女做受ⅹxx高潮| 夜夜嗨av色一区二区不卡| 久久色在线播放| 国产精品高潮呻吟久久av无限| 国产毛片精品视频| 午夜精品国产精品大乳美女| 亚洲校园激情| 国产一区二区三区四区三区四| 亚洲一区二区三| 老司机aⅴ在线精品导航| 欧美日韩一区二区三区在线看| 午夜性色一区二区三区免费视频| 一区二区黄色| 亚洲国产美国国产综合一区二区| 翔田千里一区二区| 欧美99在线视频观看| 蜜臀久久99精品久久久画质超高清| 欧美无砖砖区免费| 欧美精品一区二区高清在线观看| 亚洲黄色毛片| 另类图片国产| 最新69国产成人精品视频免费| 欧美亚洲综合久久| 久久福利资源站| 久久精品国产99精品国产亚洲性色| 国产精品婷婷午夜在线观看| 亚洲男人的天堂在线aⅴ视频| 午夜精品一区二区三区电影天堂| 亚洲一区二区精品视频| 麻豆91精品91久久久的内涵| 欧美一区1区三区3区公司| 国产日韩欧美夫妻视频在线观看| 日韩一级精品| 国产精品美女久久久久久久| 欧美精品久久久久久久免费观看| 久久精品人人做人人综合| 亚洲人成网站999久久久综合| 一区二区三区在线免费视频| 国产一区美女| 亚洲二区视频在线| 亚洲国产三级| 久久国产免费看| 欧美精品在线免费播放| 一区二区三区欧美在线| 欧美日韩国产美女| 国产精品啊v在线| 国产伦精品一区二区三区视频孕妇| 亚洲人成在线观看| 欧美性感一类影片在线播放| 99精品国产福利在线观看免费| 免费一区二区三区| 亚洲人成在线观看网站高清| 亚洲靠逼com| 国产精品自拍小视频| 欧美成人第一页| 欧美日韩高清在线播放| 模特精品裸拍一区| 国产精品亚洲网站| 狠狠综合久久av一区二区小说| 麻豆精品国产91久久久久久| 99热在这里有精品免费| 亚洲乱亚洲高清| 亚洲一区二区三区四区五区黄| 亚洲国产精品久久人人爱蜜臀| 蜜臀99久久精品久久久久久软件| 久久精品国产v日韩v亚洲| 国产一区二区黄色| 亚洲欧美久久| 亚洲制服少妇| 欧美激情网站在线观看| 欧美成人资源| 国产日韩在线看片| 欧美一级午夜免费电影| 亚洲人线精品午夜| 日韩天堂在线视频| 老司机67194精品线观看| 亚洲一区二区三区高清不卡| 久久欧美中文字幕| 亚洲一区免费看| 国产亚洲精品成人av久久ww| 亚洲美女一区| 欧美精品一区二区在线观看| 麻豆精品视频在线| 亚洲日本成人| 国产精品美女久久| 国产麻豆日韩欧美久久| 国模精品一区二区三区色天香| 国产精品亚洲综合天堂夜夜| 亚洲韩国一区二区三区| 久久午夜精品一区二区| 欧美3dxxxxhd| 亚洲高清不卡| 99热免费精品在线观看| 欧美好吊妞视频| 欧美日韩美女| 国产一区二区精品丝袜| 裸体女人亚洲精品一区| 欧美在线亚洲在线| 国产精品热久久久久夜色精品三区| 韩国在线一区| 日韩网站在线看片你懂的| 欧美xart系列在线观看| 国产欧美日韩综合精品二区| 久久精品国产久精国产一老狼|