《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 中文客戶評論對象特征的抽取與聚類方法
中文客戶評論對象特征的抽取與聚類方法
2014年微型機與應用第15期
周紅慶,吳揚揚
華僑大學 計算機科學與技術學院,福建 廈門
摘要: 通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度和領域相關度對候選特征進行過濾,實現了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。
Abstract:
Key words :

  摘  要: 通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度領域相關度對候選特征進行過濾,實現了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。

  關鍵詞: 特征挖掘;領域一致度;領域相關度

  評論挖掘是一種以從評論數據中探尋有用信息為目標的非結構化數據挖掘技術,主要包含評論對象的特征挖掘、評論觀點挖掘、評論觀點的極性以及強度判斷、評論挖掘結果的匯總以及按用戶觀點排序4個子任務[1]。

  評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關注的評價對象特征。這一技術是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準確性和全面性是非常重要的。近年來,國內外研究人員對評價對象的特征挖掘進行深入研究,他們采用很多不同方法來對特征進行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領域一致度和領域相關度方法對候選特征進行過濾的方法,實現中文客戶評論對象的特征挖掘,并且通過實驗驗證這一方法的有效性。

1 評論對象的特征挖掘


001.jpg


  中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進行預處理,利用中科院計算所所研發的ICTCLAS系統對評論文本語料進行分詞和二級詞性標注,以評論語料中句子為單位,進行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項,每一篇評論項組合起來作為一個事務在事務文件中存為一行。將每個評論對象的所有評論語料中的事務都存儲在一個事務文件中。經過預處理后,每個評論對象均有一個事務文件。然后,應用Apriori算法從事務文件中提取頻繁項集,并通過剪枝方法去除掉一些不合適的頻繁項,得到評價對象的候選特征集。最后,利用特征的領域相關度和領域一致度定義綜合評定指標,根據該指標對候選特征進行過濾,得到評價對象的特征。

  1.1 評價對象的候選特征挖掘

  定義1 頻繁項:設I是m個項目的集合,T是n個事務集合,其中每個事務S是一個項目集合,并滿足S?哿I。由I中的若干項組成的集合稱為項集,包含k個項的項集稱為k-項集,包含項集的事務數稱為該項集的出現頻度。如果該項集的出現頻度大于或等于預先設定的最小支持度,則稱項集為頻繁項。

  定義2 鄰近規則:假設f是頻繁項,而且f包含n個詞,評論句s包含f,而且在f中的詞出現在s中的順序為:w1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。

  定義3 獨立支持度:頻繁項f的獨立支持度是指包含f本身但不包含f的超集的句子數量,即f的支持度減去f的超集支持度之和。若f的獨立支持度大于最小支持度,則其符合獨立支持度規則。

  挖掘評價對象的候選特征過程如算法1所示。首先,應用Apriori算法從預處理得到的評價對象的事務文件中,提取滿足最小支持度的頻繁項集。通過分析評論對象特征的特性,發現3維以上頻繁項不可能是特征,所以只提取3維及其以下的頻繁項;然后,根據鄰近規則,去掉不在其相鄰位置的頻繁項;根據獨立支持度剪枝去掉被包含在其他頻繁項的冗余頻繁項;因為單字不可能是評價對象的特征,所以,刪去頻繁項集中的單字。

  算法1 評價對象的候選特征挖掘

  輸入:評論語料事務文件W,評論語料庫T

  輸出:頻繁特征集L

  方法:

  int minsupport,int k;

  //初始化最小支持度和頻繁項集的最高維度

  L0=Apriori(W,minsupport,k);

  //通過Apriori算法得到頻繁項集L0

  for each f∈L0 do

  //對于L0中的大于一維的項根據鄰近規則重新計算支持度

  if f.dimension﹥1 then//如果f的維度大于1

  f.count=0;//f的支持度重新設置為0

  for each t∈T do//對所有事務掃描一遍

  if f在t中是鄰近的do//若f在t中符合鄰近規則

  f.count++;//f的支持度加1

  end if

  end for

  end if

  end for

  L1={f∈L0|f.count≧minsupport};

  //刪除支持度小于最小支持度的項集

  for each f∈L1 do

  //掃描候選項集L1計算每個一維頻繁項的獨立支持度

  if f.dimension=1 then//若f的維度為1

  S={l∈L1|fl,f≠l};

  //得到包含項f的多維頻繁項集S

  for each l∈S do//掃描S中的多維頻繁項

  S.count+=l.count;

  //S的支持度為項的支持度S中項的支持度之和

  end for

  f.count=f.count-S.count;//得到f的獨立支持度

  end if

  end for

  L2={l∈L1|f.count≧minsupport};

  //刪除獨立支持度小于最小支持度的項

  return L={l∈L2|f.length﹥1};//刪除單字

  其中,minsupport表示給定的最小支持度,k表示給定的頻繁項集的最高維度。

  1.2 評價對象的特征過濾

  將不同的評價對象的評論語料看成是不同的領域的評論語料。真正的特征應該在不同領域的評論分布不均勻,在其相關領域的評論文檔集中應分布比較均勻。

  因此,本文通過計算特征的領域相關度及領域一致度,并對領域相關度和領域一致度進行量化,定義一個綜合評定指標,根據這個指標可對應用Apriori算法挖掘出來的候選特征進行過濾。

  (1)特征的領域相關度計算

  特征的領域相關度表示特征與領域的相關程度。設總共有n個領域{D1,D2,…,Dn},則候選特征t對于某領域Di的領域相關度定義為:

  12.jpg

  (2)特征的領域一致度計算

  特征的領域一致度表示特征在領域中的分布均勻度。設領域Di中有m個評論文檔{d1,d2,…,dm},則候選特征t對于Di的領域一致度定義為:

  34.jpg  其中,ft,dj表示特征t在文檔dj中的頻度。在式(3)中, H(t,Di)為信息熵,其值越大,表明t在各文檔中分布越均勻,t是該領域的可能性就越大。當t在各文檔中出現的頻度相等的時候,H(t,Di)的值最大。

 ?。?)綜合評定指標的定義

  當候選評價對象特征的領域相關度和領域一致度都很大時,該候選特征就可能是該領域的真正特征。因此,通過對兩者的加權平均,可以定義候選評價對象特征t對領域Di的一個綜合評定指標:

  DW(t,Di)=α·DR(t|Di)+β·DC(t,Di)(5)

  計算所有候選特征對于領域Di的DW(t,Di)值,按照從大到小排序。設置閾值θ,使得DW(t,Di)的值大于θ的候選特征為所選取的評價對象特征,小于θ的候選特征將從候選特征集中去除。

2 實驗結果與分析

  2.1 實驗語料與性能評價指標

  因中文產品評論觀點挖掘發展還不成熟,缺少公開的、標準的語料庫,目前研究主要采用從指定的網站(如英文的www.Amazon.com,中文的pinglun.IT168.com等)獲取某類產品的產品評論來構建產品評論語料庫[7]。所以本文選取的是從上述網站上下載下來的評論數據,包括手機、數碼相機、DVD機、書籍以及服飾5類產品各1 000條評論數據。針對每一種產品評論,用人工標注的方法對評價對象特征進行識別和標注,不考慮那些在評論中沒有出現或是出現的頻率太低的特征,那么標注時要保證特征的支持度要大于Apriori算法中的最小支持度。

  為了評估方法的性能,本文采取了查全率(recall),查準率(precision),F1-score來評價特征抽取的有效性。公式如下:

  678.jpg

  2.2 實驗結果

  在抽取評價對象的候選特征集階段,利用Apriori算法抽取頻繁項集時,選取的最小支持度為2%。綜合5種商品的實驗結果如表1所示,平均查全率為81.72%,平均查準率為62.87%。

002.jpg

  在此實驗中,一種產品的評論語料作為領域語料,那么其他4種評論語料則是作為過濾語料。比如手機的評論數據作為領域語料,那么數碼相機、DVD機、書籍和服飾的評論數據將作為過濾語料。在量化特征的領域一致度和領域相關度后,對過濾的綜合評定指標定義時,經過試驗比較發現,α值取0.9左右,β值取0.25左右,閾值θ取1.8。過濾后的5種商品的實驗結果如表2所示,平均查全率為77.07%,平均查準率為70.89%,比未過濾前查準率提高了8.02%。

003.jpg

  特征過濾的實驗結果與基于Apriori算法抽取候選特征的實驗結果以及HU M等人的英文評論挖掘結果進行比較。以F1-score值作為參考,利用3個實驗中都有的產品手機、數碼相機和書籍的實驗結果作比較,如表3所示。與基于Apriori算法抽取候選特征的實驗結果來看,平均F1-score值提高了3.2%。以HU M和LIU B的實驗結果來看,平均F1-score值提高了1.48。本方法提高了中文客戶評論對象的特征挖掘性能。

004.jpg

  本文通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度和領域相關度對候選特征進行過濾,實現了對中文客戶評論的對象特征挖掘。通過實驗驗證了通過結合領域一致度和領域相關度的過濾效果,特征挖掘的性能得到提高,且略優于參考文獻[2]關于英文評論的抽取性能。

  在今后的工作中,將建立一個中文客戶評論挖掘框架,在本文的基礎上,針對已經挖掘出來的評價對象特征,進一步判斷客戶評論中對于這些評價對象特征的情感傾向分布。

  參考文獻

  [1] POPESCU A M, ETZIONI O. Extracting product featuresand opinionsfrom reviews[J]. Proceedings of HLT-EMNLPVancouver, 2007:9-28.

  [2] HU M, LIU B. Mining opinion featuresin customer reviews[C]. Proceedings of the Tenth ACM SIGKDD International Conerence on Knowledge Discovery and Data Mining, ACM, 2004:168-177.

  [3] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統[C].中文信息處理前沿進展——中國中文信息學會成立二十五周年學術會議論文集.北京:中國中文信息學會,2006:260-281.

  [4]  YI J, NASUKAWA T, BUNESCUR R, et al. Sentiment analyzer: extracting sentiments about a given topic using natural language processing techniques[C]. Proceeding of the 3rd IEEE International Conference on Data Mining,Washington: IEEE Computer Society, 2003:427-434.

  [5] SOMPRASERTSRI G, LALITROJWONG P. A maximum entropy model for product feature extraction in online customer reviews[C]. Proceeding of the 3rd IEEE International Conference on Data Mining, Washington: IEEE Computer Society, 2008: 575-580.

  [6] ZHENG Y, YE L, WU G, et al. Extracting product features from chinese customer reviews[A]. Proceedings of 2008 3rd IEEE International Conference on Intelligent System and Knowledge Engineering[C]. 2008(1-2):285-290.

  [7] 伍星,何中市,黃永文.產品評論挖掘研究綜述[J].計算機工程與應用,2008,44(36):37-40.


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          麻豆精品视频| 欧美激情第二页| 久久免费观看视频| 国产日韩精品一区二区三区| 国内免费精品永久在线视频| 午夜伦欧美伦电影理论片| 噜噜噜91成人网| 国产老女人精品毛片久久| 亚洲欧美日韩精品一区二区| 欧美少妇一区| 欧美精品性视频| 日韩一区二区免费看| 艳妇臀荡乳欲伦亚洲一区| 亚洲天堂av图片| 国产裸体写真av一区二区| 亚洲国产精品va在看黑人| 一区二区三区欧美在线观看| 在线日韩成人| 巨胸喷奶水www久久久免费动漫| 亚洲国产一区二区视频| 国产精品欧美久久| 香蕉久久a毛片| 久久免费精品日本久久中文字幕| 一本到12不卡视频在线dvd| 欧美三日本三级三级在线播放| 91久久久在线| 国产精品外国| 久久婷婷人人澡人人喊人人爽| 亚洲专区在线视频| 亚洲人成网在线播放| 中日韩男男gay无套| 国产一区二区三区直播精品电影| 亚洲特级片在线| 午夜精品一区二区三区在线播放| 久久麻豆一区二区| 久久婷婷国产综合国色天香| 欧美在线一二三四区| 欧美日韩在线电影| 国产精品五月天| 欧美日韩一区二区视频在线| 91久久极品少妇xxxxⅹ软件| 欧美在线一级va免费观看| 欧美在线视频观看免费网站| 欧美日韩精品一区二区三区| 欧美色区777第一页| 久久婷婷国产综合国色天香| 久久久91精品国产| 免费成人你懂的| 欧美在线视频在线播放完整版免费观看| 欧美精品18+| 欧美日韩视频在线一区二区观看视频| 久久在线视频| 亚洲综合视频1区| 欧美v亚洲v综合ⅴ国产v| 国产亚洲观看| 亚洲国产精品久久人人爱蜜臀| 揄拍成人国产精品视频| 夜夜嗨av色一区二区不卡| 国产视频精品xxxx| 国产一区二区主播在线| 国产精品一区在线播放| 欧美激情国产日韩| 欧美日韩一区自拍| 欧美视频亚洲视频| 国产精品日韩久久久久| 亚洲综合欧美日韩| 亚洲自拍都市欧美小说| 欧美视频在线观看一区二区| 亚洲色无码播放| 国产精品男人爽免费视频1| 亚洲欧美综合国产精品一区| 国产日韩欧美一二三区| 亚洲少妇自拍| 国产一区二区三区久久| 女人香蕉久久**毛片精品| 亚洲国产欧美一区二区三区久久| 国产拍揄自揄精品视频麻豆| 亚洲第一精品夜夜躁人人爽| 欧美色欧美亚洲另类七区| 久久久蜜桃精品| 美女视频黄a大片欧美| 香蕉久久精品日日躁夜夜躁| 91久久香蕉国产日韩欧美9色| 亚洲激情一区二区三区| 亚洲国产岛国毛片在线| 亚洲中字在线| 影音国产精品| 欧美va亚洲va国产综合| 亚洲伦理在线免费看| 亚洲一区二区欧美| 久久成人国产精品| 久久久一区二区三区| 久久久久久久久综合| 亚洲国产日日夜夜| 国产欧美在线观看| 久久夜色撩人精品| 国产日韩欧美电影在线观看| 欧美日韩国产成人在线观看| 亚洲国产精品嫩草影院| 欧美巨乳波霸| 久久国产欧美日韩精品| 亚洲女同精品视频| 免费日韩精品中文字幕视频在线| 午夜精品美女久久久久av福利| 亚洲激情六月丁香| 欧美性猛交xxxx乱大交蜜桃| 欧美日韩1区2区3区| 亚洲图片在区色| 欧美激情精品久久久| 99re热这里只有精品免费视频| 欧美一区在线直播| 国产欧美日韩高清| 国产精品丝袜白浆摸在线| 国产精品yjizz| 欧美.日韩.国产.一区.二区| 亚洲精品一品区二品区三品区| 欧美影院成人| 亚洲国产精品久久久久| 国产欧美综合一区二区三区| 国产一区二区三区高清播放| 午夜在线观看免费一区| 欧美巨乳波霸| 欧美激情片在线观看| 女生裸体视频一区二区三区| 国内精品视频久久| 国模私拍一区二区三区| 国产精品毛片a∨一区二区三区| 久久精品国产久精国产思思| 国产精品伊人日日| 亚洲网站视频福利| 一区二区三区欧美成人| 欧美一级视频精品观看| 国产精一区二区三区| 国产精品久久久久久久久久免费看| 蜜桃av久久久亚洲精品| 国产精品igao视频网网址不卡日韩| 国产精品二区影院| 国产亚洲一本大道中文在线| 欧美体内she精视频| 国产精品爱久久久久久久| 欧美日本韩国在线| 亚洲丰满在线| 尤物在线观看一区| 欧美另类在线播放| 亚洲桃色在线一区| 国产精品毛片在线看| 欧美xart系列高清| 亚洲精美视频| 9l视频自拍蝌蚪9l视频成人| 亚洲综合第一| 国产精品久久999| 狠狠久久亚洲欧美专区| 国产午夜精品福利| 国产乱理伦片在线观看夜一区| 欧美一区二区三区四区视频| 欧美一级大片在线观看| 亚洲风情亚aⅴ在线发布| 国产午夜精品久久久久久免费视| 在线观看视频一区二区欧美日韩| 久久疯狂做爰流白浆xx| 久久国产主播精品| 女人天堂亚洲aⅴ在线观看| 麻豆乱码国产一区二区三区| 亚洲在线视频一区| 一二三区精品福利视频| 性欧美8khd高清极品| 国外成人免费视频| 国产精品久久久久久久久久免费看| 免费成人av在线| 一区二区三区精品视频在线观看| 伊人婷婷欧美激情| 欧美破处大片在线视频| 亚洲三级毛片| 国产精品日韩精品欧美在线| 黄色成人av| 久久综合狠狠综合久久综合88| 亚洲欧美国产一区二区三区| 野花国产精品入口| 亚洲六月丁香色婷婷综合久久| 欧美影院午夜播放| 欧美日韩一区二区三区在线观看免| 欧美区在线播放| 国产精品久久久久久久久久久久| 午夜精彩视频在线观看不卡| 亚洲主播在线| 亚洲国产精品久久久久秋霞蜜臀| 国产亚洲欧美一区二区三区| 亚洲日本精品国产第一区| 国户精品久久久久久久久久久不卡| 国产亚洲成av人在线观看导航| 欧美日韩亚洲网| 亚洲国产精品专区久久| 久久综合伊人77777尤物| 欧美日韩国产二区| 国产欧美在线播放| 亚洲激情国产精品| 亚洲一区二区三区影院| 精久久久久久久久久久| 亚洲精品国产精品久久清纯直播| 久久久人成影片一区二区三区观看| 国产精品国产三级国产a| 久久精品五月婷婷| 欧美在线视频免费播放| 久久婷婷国产综合国色天香| 欧美日韩国产亚洲一区| 一本一本久久a久久精品牛牛影视| 欧美福利专区| 国产美女精品一区二区三区| 亚洲国产成人精品女人久久久| 欧美三区在线观看| av成人免费在线观看| 99综合电影在线视频| 久久精品久久综合| 国产精品成人免费精品自在线观看| 亚洲动漫精品| 欧美成人午夜免费视在线看片| 国产伦精品一区二区三| 亚洲免费在线观看| 一区在线观看| 欧美亚州韩日在线看免费版国语版| 好看的日韩视频| 国产欧美综合一区二区三区| 日韩视频一区二区| 欧美理论在线播放| 黄页网站一区| 亚洲精品网址在线观看| 一区二区免费在线视频| 欧美极品在线播放| 亚洲美女av网站| 国产麻豆精品久久一二三| 国产欧美视频一区二区| 欧美亚洲视频一区二区| 亚洲乱码一区二区| 久久偷看各类wc女厕嘘嘘偷窃| 欧美另类专区| 欧美一区二区精品在线| 又紧又大又爽精品一区二区| 欧美日韩三级一区二区| 欧美精品一区二区久久婷婷| 亚洲深爱激情| 欧美精品性视频| 妖精视频成人观看www| 国产喷白浆一区二区三区| 香蕉亚洲视频| 在线精品视频免费观看| 欧美日韩一区二区三区在线观看免| 久久一区二区三区四区五区| 久久久国产亚洲精品| 蜜臀久久99精品久久久久久9| 欧美国产日韩二区| 久久精品91久久香蕉加勒比| 国产精品日日摸夜夜添夜夜av| 午夜欧美电影在线观看| 亚洲精选一区| 亚洲日本电影在线| 伊人精品久久久久7777| 欧美噜噜久久久xxx| 欧美一区二区视频免费观看| 国产精品久久久久久久久免费樱桃| 欧美午夜免费影院| 免费日本视频一区| 欧美精品成人一区二区在线观看| 久久精品视频免费| 蜜桃久久av一区| 免费成人毛片| 国产精品普通话对白| 国产精品一二三四区| 欧美午夜电影在线观看| 久久成人精品无人区| 亚洲韩国日本中文字幕| 国产精品第2页| 欧美精品一区二区高清在线观看| 国产亚洲一区二区三区| 狠狠色丁香久久综合频道| 久久久精品午夜少妇| 日韩一级免费观看| 欧美高清视频一区| 欧美理论在线| 欧美成人一区二区三区在线观看| 久久夜精品va视频免费观看| 久久精品99久久香蕉国产色戒| 免费短视频成人日韩| 欧美激情国产高清| 久久久综合香蕉尹人综合网| 国产精品久久久久三级| 国产一区二区三区四区老人| 亚洲人体1000| 久久久久欧美| 欧美先锋影音| 国产日韩在线一区二区三区| 国产日韩专区在线| 国产精品久久久久91| 亚洲欧美另类中文字幕| 欲色影视综合吧| 久久夜色精品一区| 国产精品久久久久国产精品日日| 精品成人乱色一区二区| 欧美私人网站| 午夜在线视频一区二区区别| 亚洲精品美女免费| 免费成人在线视频网站| 亚洲一区二区三区免费在线观看| 夜久久久久久| 欧美精选午夜久久久乱码6080| 久久久久久久999精品视频| 久久久久久久精| 99热免费精品在线观看| 亚洲欧美成人| 性欧美激情精品| 国产人妖伪娘一区91| 亚洲狼人精品一区二区三区| 久久九九有精品国产23| 国产在线一区二区三区四区| 在线午夜精品| 久久国产主播精品| 激情成人综合| 一个色综合导航| 亚洲伊人第一页| 午夜精品久久久久久久男人的天堂| 国产婷婷色综合av蜜臀av| 欧美视频一区二区在线观看| 亚洲高清123| 国产九九精品视频| 欧美成人中文字幕| 最近看过的日韩成人| 欧美久久影院| 久久av免费一区| 女仆av观看一区|