《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種面向微博文本的命名實體識別方法
一種面向微博文本的命名實體識別方法
2018年電子技術應用第1期
李 剛,黃永峰
清華大學 電子工程系NGN實驗室,北京100084
摘要: 命名實體識別是自然語言處理領域的一項基礎性技術。近年來微博等網絡社交平臺發展迅速,其獨特的形式對傳統的命名實體識別技術提出了新的挑戰。故提出一種基于條件隨機場模型的改進方法,針對微博文本短小、語義含糊等特點,引入外部數據源提取主題特征和詞向量特征來訓練模型,針對微博數據規模大、人工標準化處理代價大的特點,采取一種基于最小置信度的主動學習算法,以較小的人工代價強化模型的訓練效果。在新浪微博數據集上的實驗證明,該方法與傳統的條件隨機場方法相比F值提高了4.54%。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實體識別方法[J].電子技術應用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.

An approach to named entity recognition towards micro-blog
Li Gang,Huang Yongfeng
NGN Laboratory,Department of Electronics Engineering,Tsinghua University,Beijing 100084,China
Abstract: Named entity recognition is a fundamental technology in natural language processing(NLP). In recent years, rapid development of social network platforms such as microblog presents new challenges to the traditional named entity recognition(NER) technology because of the unique form. In this paper, an improved method based on the conditional random field(CRF) model is proposed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the topic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4.54% compared to the traditional CRF methods.
Key words : named entity recognition;micro-blog;conditional random field;word representation;active learning

0 引言

    命名實體識別(Named Entity Recognition)是指識別文本中的各種實體,如人名、地名、機構名或其他特有標識[1],是自然語言處理(Natural Language Processing,NLP)中非常重要的一項基礎性技術。近年來,Twitter、新浪微博等新型社交平臺發展迅速,成為命名實體識別的新方向。RITTER A[2]等人設計了一個應用于Twitter上的T-NER系統,重構了命名實體識別的流程。TURIAN J等人[3]利用半監督的系統進行命名實體識別,大大減少了識別的成本。Liu Xiaohua等人[4]在一個半監督的框架下把K近鄰分類器和CRF模型結合起來,識別Twitter中的命名實體,取得了較好的效果。

    上述工作都是基于Twitter的,沒有考慮中文的深層語義,且多使用有限自建數據集,沒有考慮人工標記的代價和不足,因此需要加以改進。本文研究面向中文微博的命名實體識別,將識別視為一個序列標注問題,通過改進的基于概率模型的算法優化識別效果。針對微博文本短小、信息量少和文體不正規、語意含糊的特點,引入外部數據源提取深層語義特征;針對微博數據集人工處理代價大的問題,引入主動學習算法,以較小的人工代價獲得識別效果的提升。

1 面向微博的命名實體識別方法

    參照CoNLL2003的標準,給定一條微博,需要識別出其中的人名、地名、機構名和其他實體共4類命名實體[5]。

    研究的基礎模型采用了CRF[6]模型。

1.1 特征選取

    基礎特征采用當前詞和前后位置詞的詞型和詞性特征,這也是大多數CRF模型會采用的特征。由此生成的模型作為基礎模型,對應的實驗結果作為基線。

1.1.1 主題特征

    (Latent Dirichlet Allocation,LDA)模型[7]是一種無監督的概率主題模型。每個主題下都分布著出現概率較高的詞語,這些詞都與這個主題有很強的相關性,利用這種相關性能在一定程度上解決一詞多義、同義詞等問題。模型的訓練使用了外部數據源,主題個數k可以事先指定。

    獲得LDA模型后,對于給定k個主題,通過p(w|t),將每個主題視為一個特征,將訓練集中的每個詞看作是由k個特征表示的K維向量,則每個詞都可以表示成一個k維向量,即:

    jsj3-gs1.gif

其中,vi表示第i個詞的向量,λk表示該詞在第k個主題上的權重,N是詞表的大小。

1.1.2 詞向量特征

    詞向量源于HINTON G E[8]提出的Distributed Representation。一個流行的詞向量訓練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語義上的相似度,有利于解決微博語義含糊的問題。

    詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計算量過大。這里需要利用的是其相似性,因此可以用聚類的方法進行簡化。實驗中選擇將詞語表示為200~500維的詞向量,再利用k-means進行聚類,將類別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類結果,更好的辦法是多層聚類(multi-layer cluster)。

jsj3-gs2.gif

1.2 模型強化

    人工處理微博語料人工處理代價高昂,為了以最小的人工代價獲得最大的系統性能提升,研究采用了主動學習算法。主動學習算法包含兩部分,一個是分類器,另一個是抽樣策略[10]。分類器采用前文所述的改進型CRF模型。抽樣策略可采用如下方法。

    抽樣不確定度是一中常見的衡量樣本信息含量的方法,在序列標注模型中,可以根據最小置信度(Least Confidence)φLC(x)來確定抽樣不確定度。

    jsj3-gs3.gif

其中,x表示一個樣本,y*是對應概率最大的標記。對于一個訓練好的CRF模型,可以在對每條微博進行標記的同時輸出對應概率P?,F給出整個算法框架。

    算法1:基于置信度的主動學習算法

    輸入:有標記語料DL、未標記語料DU

    輸出:分類器C

        用DL訓練分類器C(CRF classifier)

        重復:

jsj3-2-s1.gif

2 實驗

    實驗用到了3個數據集,分別是訓練集、擴展集和測試集。其中3 000條標記語料作為訓練集,2 000條標記語料作為測試集。另外2 000條作為擴展集用于主動學習,不需標注。另有500萬條經過除重去噪的微博作為外部源,分別用于LDA模型訓練和詞向量模型訓練,供抽取外部特征使用。

2.1 評價標準

    本文采用的評價標準包括準確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個指標。F1是準確率和召回率的調和平均值,是一個綜合性的指標。

2.2 實驗數據及分析

    (1)使用訓練集提取基礎特征,建立基礎模型,在測試集上進行評估。結果如表1所示。此結果將作為基線與后續實驗結果進行對比。

jsj3-b1.gif

    (2)引入外部特征進行了多組實驗。圖1左側是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側是將400維的詞向量進行聚類后作為特征引入模型的效果。F1值在聚類個數為400時達到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語法和語義信息,而LDA模型內部采用了詞袋模型,僅考慮了詞的共現關系而沒有考慮上下文關系,這樣簡化了模型,但不可避免地帶來了信息的損失。

jsj3-t1.gif

    多層聚類的實驗效果如圖2所示,每個維度下前4個柱圖表示單層聚類(分別是聚成200、300、400、500個類簇)時的效果,最后一個表示同時使用前4個聚類結果作為多層聚類時的效果,顯然效果比單層聚類更好。

jsj3-t2.gif

    同時將所有的外部特征添加到基礎模型進行實驗,F1值提高到65.41%。

    (3)采用主動學習的方法進一步強化模型。提升效果如圖3所示。詳細的數據參見表2。曲線Model_ba表示僅用外部特征而不進行主動學習的模型效果。曲線Model_la表示把一次性把包括訓練集DL和擴展集DU在內的所有語料都進行標記(label all)并用于模型訓練。Model_al1、Model_al2和model_al3是使用主動學習策略但閾值不同的模型??傮w看,無論是取哪個閾值,相比不進行主動學習,主動學習都能提高F1值,且收斂速度很快。

jsj3-t3.gif

jsj3-b2.gif

    表2進一步說明了主動學習的優點。Model_la需要標記微博2 080條,約9萬個詞,人工代價太大。相比之下,3個主動學習模型能明顯降低人工標記量。其中Model_al2比Model_al3的F1值要高0.25%,標記量僅提升了12.9%;而Model_al1與Model_al2相比,F1值僅提升了0.1%,但代價是標記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實驗結果。此時僅需標記457條微博,約37 000個標記,F1值達到67.23%,相較最初的模型提升4.54%。

3 結語

    本文提出了一種面向中文微博的命名實體識別方法,先引入外部特征訓練CRF模型,再采用主動學習算法強化訓練結果。實際工作中發現,中文分詞效果不佳影響了后續的工作,主動學習仍然引入了二次標記,不利于大規模的識別任務。這些都需要在以后的工作中加以改進。

參考文獻

[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.

[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.

[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.

[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.

[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.

[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.

[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.

[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.

[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          激情视频一区二区三区| 欧美一区二区三区播放老司机| 激情成人综合网| 国产视频一区在线观看一区免费| 亚洲精品视频免费在线观看| 午夜精品999| 亚洲在线不卡| 麻豆视频一区二区| 国产精品亚洲综合| 国产精品久久国产精品99gif| 亚洲国产精品福利| 艳女tv在线观看国产一区| 久久精品国产久精国产思思| 欧美在线关看| 亚洲少妇中出一区| 国产欧美日韩在线播放| 欧美一区二区成人| 中文国产成人精品| 亚洲国内精品在线| 欧美性大战久久久久久久| 亚洲欧美日韩国产综合| 99国产精品久久久久久久久久| 亚洲性线免费观看视频成熟| 玖玖在线精品| 国产欧美视频一区二区三区| 午夜视频一区| 尤物精品在线| 久久精品国产91精品亚洲| 欧美大片网址| 亚洲一区二区在线| 性色av一区二区三区在线观看| 国产日韩欧美夫妻视频在线观看| 蜜臀va亚洲va欧美va天堂| 久久av在线看| 国产精品啊啊啊| 国产精品成人一区| 午夜精品在线| 国产精品视频一区二区三区| 亚洲欧美日韩第一区| 国产精品狼人久久影院观看方式| 久久精品道一区二区三区| 亚洲视频大全| 欧美视频四区| 国产精品亚洲第一区在线暖暖韩国| 国产揄拍国内精品对白| 国产一区二区三区电影在线观看| 国产视频自拍一区| 亚洲主播在线观看| 欧美国产日本高清在线| 艳妇臀荡乳欲伦亚洲一区| 美女主播视频一区| 国产精品亚洲激情| 久久亚洲电影| 国产精品video| 夜夜嗨av一区二区三区网站四季av| 亚洲综合好骚| 欧美xxxx在线观看| 欧美亚洲综合另类| 欧美日韩国产综合一区二区| 国产最新精品精品你懂的| 国产精品大片wwwwww| 欧美视频网址| 午夜久久黄色| 国产精品一区在线观看| 国产综合久久久久久鬼色| 在线看日韩欧美| 久久久综合网站| 亚洲区第一页| 在线观看一区视频| 亚洲春色另类小说| 亚洲夜晚福利在线观看| 亚洲精品视频免费| 狠狠色伊人亚洲综合成人| 欧美成人免费va影院高清| 夜夜精品视频| 日韩亚洲欧美高清| 久久天天躁狠狠躁夜夜爽蜜月| 久久天堂av综合合色| 欧美高清在线播放| 一区免费视频| 久久久中精品2020中文| 一区二区三区四区国产| 欧美一区二区三区免费观看| 欧美午夜精品久久久久久超碰| 久久人人爽爽爽人久久久| 亚洲欧美精品在线| 国产精品色在线| 国产午夜精品美女毛片视频| 欧美一区二区三区在线视频| 男人的天堂亚洲在线| 夜色激情一区二区| 亚洲午夜精品久久久久久浪潮| 国产精品一区二区男女羞羞无遮挡| 欧美一进一出视频| 欧美精品在线一区二区三区| 欧美另类久久久品| 亚洲免费影院| 欧美在线视频导航| 国产精品久久激情| 亚洲激情午夜| 欧美在线视频播放| 亚洲激情欧美| 欧美午夜精品电影| 久久久久中文| 亚洲欧美色婷婷| 免费一级欧美片在线观看| 亚洲欧美日韩一区二区在线| 免费精品99久久国产综合精品| 欧美精品成人91久久久久久久| 国产精品欧美风情| 国产精品久久国产三级国电话系列| 午夜欧美电影在线观看| 欧美精品国产精品| 久久免费精品日本久久中文字幕| 亚洲第一精品夜夜躁人人爽| 欧美凹凸一区二区三区视频| 久久久综合免费视频| 91久久中文字幕| 国产欧美一区视频| 欧美一区二区高清| 久久中文字幕一区二区三区| 欧美va日韩va| 国产精品入口日韩视频大尺度| 在线精品国精品国产尤物884a| 欧美a一区二区| 久久大逼视频| 国产精品家庭影院| 国产精品久久久久91| 国产精品黄色在线观看| 美女黄毛**国产精品啪啪| 亚洲欧美日韩在线综合| 亚洲国产专区校园欧美| 国产精品久久777777毛茸茸| 狠狠色狠狠色综合日日五| 国产一区导航| 亚洲视频在线观看三级| 亚洲国产中文字幕在线观看| 欧美亚一区二区| 欧美日韩亚洲91| 亚洲国产精品久久精品怡红院| 国产精品私拍pans大尺度在线| 日韩写真在线| 欧美日韩在线亚洲一区蜜芽| 欧美喷水视频| 国产亚洲精品成人av久久ww| 欧美日韩在线不卡| 亚洲欧美日韩在线播放| 国产精品外国| 亚洲一本视频| 国产精品色网| 欧美日韩在线视频首页| 国产午夜精品全部视频在线播放| 欧美国产日产韩国视频| 日韩亚洲视频在线| 久久精品视频免费| 一本色道久久综合亚洲精品不| 亚洲精品欧洲精品| 亚洲电影下载| 国产精品夜夜夜一区二区三区尤| 久久一区二区三区av| 伊人久久大香线| 国产欧美一区二区三区国产幕精品| 欧美激情2020午夜免费观看| 欧美精品久久一区二区| 夜夜嗨网站十八久久| 国产亚洲va综合人人澡精品| 亚洲精品资源美女情侣酒店| 国产一区二区剧情av在线| 亚洲开发第一视频在线播放| 亚洲精品美女91| 精品成人一区二区| 亚洲精品自在在线观看| 欧美福利视频一区| 久久天堂精品| 久久成人羞羞网站| 亚洲激情图片小说视频| 日韩午夜中文字幕| 欧美成人免费全部观看天天性色| 9人人澡人人爽人人精品| 亚洲精品网址在线观看| 亚洲精选一区| 国产在线国偷精品产拍免费yy| 亚洲国产美女久久久久| 欧美一区在线看| 国产欧美精品一区aⅴ影院| 国产精品乱人伦中文| 亚洲人成网站在线播| 欧美成人黄色小视频| 欧美福利视频| 欧美另类女人| 欧美香蕉视频| 亚洲美女av电影| 性欧美暴力猛交另类hd| 亚洲毛片在线观看| 亚洲精品视频一区| 久久―日本道色综合久久| 中国亚洲黄色| 99精品免费| 欧美日韩一区二区在线观看| 亚洲欧美电影院| 亚洲一区不卡| 老司机免费视频一区二区| 午夜精品视频| 国产一区二区激情| 国产精品久久久久久久久久直播| 欧美性淫爽ww久久久久无| 久久精品在这里| 另类av导航| 欧美午夜寂寞影院| 先锋影音久久| 欧美日韩小视频| 国产精品国码视频| 久久免费视频这里只有精品| 久久尤物电影视频在线观看| 亚洲欧美日韩一区在线| 亚洲综合色自拍一区| 欧美www在线| 国内一区二区三区| 亚洲国产黄色片| 欧美精品一区二区三区蜜桃| 欧美尤物一区| 欧美日韩综合视频| 亚洲综合视频网| 久久久久成人精品免费播放动漫| 国产欧美亚洲精品| 黄色av日韩| 国产精品多人| 亚洲欧美在线高清| 欧美电影美腿模特1979在线看| 亚洲一区精品在线| 欧美日韩在线一区二区| 中日韩美女免费视频网址在线观看| 狠狠狠色丁香婷婷综合激情| 午夜日韩在线| 久久久噜噜噜久久中文字幕色伊伊| 夜色激情一区二区| 国产精品久久久久久av下载红粉| 欧美日韩国产免费观看| 国产九色精品成人porny| 亚洲日韩欧美视频| 亚洲二区免费| 国产亚洲成精品久久| 欧美日本一道本| 91久久夜色精品国产网站| 国产欧美精品一区| 欧美日韩精品国产| 亚洲国产欧美日韩| 国产精品久久久免费| 国产精品成人v| 亚洲欧美偷拍卡通变态| 国产亚洲欧美日韩美女| 国产精品久久久久免费a∨| 国产精品九九久久久久久久| 国产精品国内视频| 欧美不卡视频一区| 欧美激情一区二区三区| 亚洲一区二区三区在线观看视频| 小黄鸭视频精品导航| 欧美精品一区二区三| 亚洲高清资源| 亚洲一区二区在线视频| 麻豆免费精品视频| 亚洲欧美日本伦理| 欧美日韩一二三区| 一区二区三区鲁丝不卡| 99国产精品一区| **欧美日韩vr在线| 欧美精品在线极品| 欧美日韩另类在线| 中文高清一区| 国产精品手机在线| 国产欧美日韩91| 欧美激情网友自拍| 蜜桃久久精品一区二区| 欧美另类69精品久久久久9999| 亚洲区一区二| 亚洲影音一区| 午夜久久一区| 激情综合网址| 久久久久久久久久看片| 欧美日韩国产综合视频在线| 久久久精品一品道一区| 国产精品一区二区三区观看| 亚洲精品视频在线观看免费| 亚洲三级免费电影| 日韩天天综合| 国产精品久久久久7777婷婷| 国产一区亚洲一区| 一本久道久久久| 国产午夜一区二区三区| 免费亚洲婷婷| 亚洲另类在线视频| 在线观看视频亚洲| 亚洲精品影视在线观看| 性做久久久久久免费观看欧美| 欧美国产亚洲精品久久久8v| 亚洲人屁股眼子交8| 国产日产高清欧美一区二区三区| 日韩亚洲一区在线播放| 在线不卡亚洲| 久久国产精品99国产精| 影音先锋另类| 国产精品人人做人人爽人人添| 久久综合久久久| 韩日欧美一区二区三区| 在线欧美小视频| 国产在线一区二区三区四区| 久久综合狠狠综合久久综青草| 欧美理论电影在线观看| 日韩一级精品视频在线观看| 欧美日本亚洲| 日韩视频免费观看| 欧美日韩国产成人在线观看| 在线一区亚洲| 一个色综合导航| 亚洲国产日韩一区二区| 欧美一区2区三区4区公司二百| 激情校园亚洲| 日韩视频永久免费观看| 国产精品豆花视频| 亚洲视屏在线播放| 欧美国产高潮xxxx1819| 欧美激情一区二区久久久| 亚洲开发第一视频在线播放| 午夜在线观看免费一区| 亚洲人成77777在线观看网| 又紧又大又爽精品一区二区| 国产精品羞羞答答xxdd|