《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于特征噪聲加權的特征權重算法改進
基于特征噪聲加權的特征權重算法改進
來源:微型機與應用2012年第3期
趙 航1,楊天奇1,趙小廈2
(1.暨南大學 信息科學技術學院,廣東 廣州 510632; 2.華南師范大學 計算機學院,廣東 廣
摘要: 特征權重算法TF-IDF是文本分類的重要算法之一,該算法IDF值容易受特征噪聲影響出現波動。提出一種基于特征噪聲加權的特征權重改進算法,該算法通過分析噪聲特征的分布特點,對不能準確表達文檔真實意思的特征噪聲進行加權,降低特征噪聲對IDF的影響,最終有效地提高算法的精度和健壯性。
Abstract:
Key words :

摘  要: 特征權重算法TF-IDF是文本分類的重要算法之一,該算法IDF值容易受特征噪聲影響出現波動。提出一種基于特征噪聲加權的特征權重改進算法,該算法通過分析噪聲特征的分布特點,對不能準確表達文檔真實意思的特征噪聲進行加權,降低特征噪聲對IDF的影響,最終有效地提高算法的精度和健壯性。
關鍵詞: 向量空間模型;文本分類;特征噪聲;特征權重;健壯性

 隨著信息技術的發展,信息極度膨脹,人們迫切希望找到一種信息自動處理技術。文本分類作為信息處理的技術之一,由于其能對信息進行分類,使得獲取信息更加容易,因而得到廣泛應用。在文本分類的算法中,空間向量法中的TF-IDF算法由于其以詞頻TF和逆文檔頻數IDF的乘積作為向量坐標系的值,具有簡單、直觀、處理速度快的優點,得到廣泛應用。但在理論和實際應用中有很大局限性,以至于其精度在各種文本分類中一直是較低的[1]。
本文針對噪聲特征對TF-IDF算法逆文檔頻率(IDF)影響進行分析,提出了一種IDF加權方法,調整對IDF產生影響的特征噪聲權重,有效減少了算法對噪聲的影響,提高了TF-IDF算法的精度和健壯性。雖然已有很多研究者對TF-IDF算法做了改進,從特征選擇上減少噪聲特征的選擇,但特征噪聲在分類中出現是不可避免的。
1 向量空間算法的分析
 向量空間算法的基本思想是用詞袋法表示文本,將文本看做特征空間的一個向量,用兩個向量之間的夾角來衡量兩個文本之間的相似度。用TF-IDF值表示向量空間的一個特征值權重。
詞語權重計算唯一的準則就是要最大限度地區分不同的文檔。所以針對詞語權重的計算,主要考慮3個因素[2]:
 (1)詞語頻率tf(term frequency):該詞語在此文檔中出現的頻率。常用的計算方法是tf(Tk)=■;其中TF(Tk)表示特征Tk出現的頻率。
?。?)詞語的倒排文檔頻率idf(inverse document frequency):該詞語在文檔中分布情況的量化,常用計算方法[3]為idf(Tk)=log2(N/nk+L)。其中N為文檔集合中的文檔數目;nk為出現過特征Tk的文檔數目;L根據實驗來確定。
?。?)歸一化因子(normalization factor):對各分量進行標準化。
 根據上述3個因素,可以得出:TF與IDF的聯合公式如下(其中i表示類別號):

 式(1)的提出基于這樣一種假設[2]:對區別文檔最有意義的詞語應該是在文檔中出現頻率足夠高,但在整個文檔中出現頻率足夠少的詞語。所以向量空間模型的基礎是詞語的出現頻率和出現的文檔頻率[2],但同時一個文檔中的特征在不管出現的頻率多少與文檔頻率的計算無關,文檔頻率的計算只與該特征在文檔中出現與否有關。而特征噪聲在文檔中出現一般是以較小的頻率出現。當一個特征以特征噪聲的形式在大量文檔中出現時(該特征本不應該在這些文檔中出現),文檔頻率計算出的值伴隨特征噪聲出現文檔數目的不同變化很大。由于沒有考慮特征受噪聲影響的程度,只是單純的以特征是否在文檔中出現為依據計算文檔頻率,文檔頻率就不能夠很好地在分類時起作用。
 TF-IDF算法的IDF函數本質是一種抑制噪聲的加權[3]。IDF函數認為文檔頻數少的單詞就重要,而文檔頻數多的單詞就無用,這樣也使IDF值容易受噪聲的影響。文檔中的用詞本身帶有很大的隨意性,用與不用某個詞都行。大量的文檔本身就不規范,并含有很多不規范的用詞,導致降低了IDF值對單詞權重的區分。
2 特征權重算法的改進
 針對傳統算法沒有考慮噪聲影響,對特征特點進行分析提出了改進算法。
2.1 文檔特征分析
 該文選擇了搜狗實驗室—搜狐新聞數據900篇文檔進行特征分析,選出一篇文檔Di,首先對Di進行分詞預處理,進行特征提取,特征降維。統計Di出現詞頻為t(t=1,2,3,…,10)的特征個數占該Di所有特征數Din的比例ri,且對所有文檔取平均值;然后進行特征降維前后文檔的對比。
 經統計得出,在降維前出現詞頻為1的特征所占比例約80%;詞頻為1和2的特征共占約90%。通過降維后詞頻為1的特征所占比例有所降低,但仍然超過50%,詞頻為1和2的特征共超過60%。由此可見特征詞頻為1、2占特征總數的絕大部分,雖然可以通過各種算法降低特征數,但降維后特征詞頻為1、2的仍然占特征總數的絕大部分。如果特征詞頻為1、2的特征屬于噪聲特征,這些特征在文檔中出現與否也許不會影響所在文檔的分類,但由于訓練庫的文檔數非常多,這樣可能會造成文檔頻率DF出現較大波動,使得IDF值出現大的波動,擾亂TF-IDF算法的準確性。
2.2 改進方法
 可以這樣認為:當特征詞頻TF較小時(例如TF=1),并不能有效地代表此特征在文檔中的重要性,有很大幾率是作者偶然性使用該特征;當特征詞TF較大時,很多次偶然使用同一特征詞的幾率不大,很可能是該文檔不得不使用該特征。由于文檔作者用詞具有很大的隨意性,可以很隨意用其他特征詞代替,從而很容易使TF較小的特征詞頻的TF=0,這一變化對IDF產生影響,如果詞頻TF在很多文檔中出現頻數很低,IDF值就更容易受文檔作者用詞的影響從而擾亂TF-ID特征值的計算,使TF-IDF特征值偏離代表分類權重的意義。
從上述分析可以得到文檔中大部分特征的詞頻為1或2,因此,如何降低噪聲特征影響對TF-IDF算法精度計算至關重要。
 本文降低特征噪聲對IDF值計算影響的方法主要是通過對統計文檔頻數進行加權。原算法文檔頻數計算值是統計特征在文檔集中出現的文檔數,而改進的算法是統計特征在文檔集中出現的加權文檔數。使噪聲特征降低對IDF值的影響,從而降低IDF的波動,提高TF-IDF算法的精度和穩定性。
使用WIDF(加權反文檔頻率)代替IDF,WIDF的計算公式如下

 實驗在確定式(2)中的wi值時,對Tk出現1和2的詞頻進行處理,因為1和2的詞頻低,且在圖1中可以看出占用比例很大的更容易受噪聲影響。當Tk在文檔中出現頻率為1時,wi通過實驗最終確定為0.5;頻率為2時,通過實驗最終確定為0.9;頻率大于2的詞頻通過實驗確定的wi非常接近1,所以出現頻率大于2時wi取為1。
3 實驗與分析
3.1 實驗數據

 實驗所有語料來源于搜狗實驗室—搜狐新聞數據(SogouC.reduced.20061127)選取財經、IT、健康、體育、旅游、教育、招聘、文化、軍事9個大類,總共4 500篇文檔、其中1 800篇作為訓練集(每個類200篇),余下的2 700篇(每個類300篇)文檔作為測試集。
3.2 評價指標
 實驗采用分類精度來評估權重算法在不同類上的分類性能。分類精度的定義如下:

 


 從表(1)可以看出在對2 700篇文檔進行分類時,當K從50~75變化時:TF-IDF算法錯誤識別文檔數在366~380范圍變化,波動范圍為14;TF-WIDF算法錯誤識別文檔數在351~357范圍變化,波動范圍為6;由此得出當選不同k值時TF-WIDF算法比TF-IDF算法更加穩定。
 從表(2)中可以看出TF-WIDF權重算法結合k-NN分類器在各類別上的精確度P除了在健康、財經有少許下降外大部分都有不同程度的提高,在所有類總體正確率提高0.004~0.008??梢缘贸鯰F-WIDF算法比TF-IDF算法更加精確,與本文使用已經適當優化了傳統TF-IDF算法有關,使其總體分類正確率高達0.864 4,在如此高的正確率下再提高任何一點都是非常困難的,而本文正是在如此高的正確率基礎上仍然使其提高0.004~0.008,足可以證明本文的改進是有效的。從而說明TF-WIDF能有效地減少由于文檔作者用詞不規范、用詞隨意性造成文檔特征噪聲對TF-IDF算法的影響。盡管改進后的權重算法取得了一定效果,但文本分類問題設計文本表示、相似的計算、算法決策等多個方面改進權重算法并未使分類效果得到明顯提高[4]。
通過加權減少了噪聲特征對文本分類系統精度的影響。本文研究了傳統的TF-IDF加權算法,在已適當優化算法基礎之上提出噪聲加權算法。實驗證明,在傳統算法基礎上改進的加權算法及其他一些算法基礎上的改進,都可有更好的表現。

參考文獻
[1] 陸玉昌,魯明羽.向量空間法中單詞權重函數的分析和構造[J].計算機研究與發展,2002,39(10):1205-1210.
[2] 魯松,李曉黎.文檔中詞語權重計算方法的改進[J].中文信息學報,2000,14(6):8-20.
[3] 李凱齊,刁興春.基于信息增益的文本特征權重改進算法[J].計算機工程,2011,37(1):16-21.
[4] 臺德藝,王俊.文本分類特征權重改進算法[J].計算機工程,2010,36(9):187-202.

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          一区二区三区波多野结衣在线观看| 韩国亚洲精品| 日韩视频在线观看免费| 麻豆av一区二区三区久久| 国产精品自拍一区| 亚洲性图久久| 欧美成人精品福利| 国产精品视频免费一区| 激情亚洲一区二区三区四区| 在线观看视频一区| 久久久精品日韩欧美| 久久国产毛片| 亚洲国产婷婷综合在线精品| 亚洲九九精品| 久久av一区二区三区漫画| 欧美国产一区视频在线观看| 国产情侣久久| 亚洲第一页中文字幕| 国产精品区免费视频| 老色鬼精品视频在线观看播放| 午夜天堂精品久久久久| 一本色道久久综合亚洲精品按摩| 亚洲欧美日韩国产中文在线| 国产农村妇女毛片精品久久莱园子| 一区二区三区四区蜜桃| 亚洲少妇在线| 国产精品福利影院| 亚洲免费影院| 国产欧美三级| 红桃视频欧美| 老鸭窝亚洲一区二区三区| 欧美在线啊v| 亚洲欧美成人综合| 国内久久婷婷综合| 久久久亚洲精品一区二区三区| 久久久久天天天天| 国产精品xxxav免费视频| 久久综合精品国产一区二区三区| 亚洲欧洲久久| 久久久久一区| 国产欧美一区二区精品秋霞影院| 亚洲私人影院在线观看| 一区二区三区回区在观看免费视频| 欧美日韩美女在线| 99国产精品视频免费观看| 免费美女久久99| 国产精品视频男人的天堂| 在线播放视频一区| 欧美成人免费全部观看天天性色| 欧美日韩精品| 精品不卡一区二区三区| 国产精品亚洲视频| 在线观看欧美日韩国产| 一区二区三区精品国产| 国产精品中文字幕在线观看| 免费久久99精品国产自| 裸体丰满少妇做受久久99精品| 欧美成人免费小视频| 亚洲剧情一区二区| 久久久欧美精品sm网站| 欧美伦理91| 亚洲精品久久久久久下一站| 国产一区二区精品丝袜| 欧美经典一区二区| 国产精品久久久久久久久果冻传媒| 亚洲第一精品久久忘忧草社区| 激情综合色丁香一区二区| 亚洲国产精品精华液网站| 亚洲欧洲日产国码二区| 欧美精彩视频一区二区三区| 欧美精品二区三区四区免费看视频| 欧美一区1区三区3区公司| 国产精品国产馆在线真实露脸| 欧美区一区二| 亚洲日本黄色| 欧美福利电影在线观看| 欧美中文字幕在线视频| 欧美亚洲日本国产| 久久精品视频在线免费观看| 欧美日本一道本| 亚洲国产午夜| 欧美色网在线| 尤物精品国产第一福利三区| 一本色道88久久加勒比精品| 国产精品美女久久| 麻豆乱码国产一区二区三区| 久久人体大胆视频| 国产精品视频福利| 免费亚洲网站| 国产毛片精品视频| 国产精品theporn88| 先锋影音一区二区三区| 欧美激情在线| 国产主播一区| 国内精品久久久久影院薰衣草| 亚洲专区免费| 国产精品久久久久久影视| 久久精品久久综合| 黄色在线成人| 国产精品v片在线观看不卡| 亚洲国产91精品在线观看| 久久手机免费观看| 久久在线精品| 99视频超级精品| 99视频+国产日韩欧美| 精久久久久久久久久久| 欧美日韩亚洲综合| 欧美国产先锋| 国产主播精品在线| 午夜国产精品视频| 久久不射网站| 亚洲一区二区3| 欧美黄色精品| 国产美女在线精品免费观看| 国产伦精品一区二区三区照片91| 欧美日韩国内自拍| 亚洲国语精品自产拍在线观看| 国产精品v一区二区三区| 国内精品**久久毛片app| 久久久www成人免费毛片麻豆| 欧美视频亚洲视频| 在线视频中文亚洲| 欧美精品日韩| 欧美亚洲自偷自偷| 久久在精品线影院精品国产| 欧美一级午夜免费电影| 亚洲三级国产| 欧美视频在线免费| 欧美a一区二区| 久久国产视频网站| 欧美美女操人视频| 国产亚洲精品久久飘花| 欧美激情网站在线观看| 国产一区二区三区久久久久久久久| 久久偷看各类wc女厕嘘嘘偷窃| 欧美一区二区三区久久精品| 欧美在线一二三区| 免费视频一区二区三区在线观看| 国产精品免费视频观看| 国产精品日日摸夜夜摸av| 在线精品观看| 久久国产加勒比精品无码| 欧美日韩影院| 久久综合国产精品| 久久久www成人免费毛片麻豆| 国产精品乱码久久久久久| 亚洲欧美在线播放| 亚洲国产欧美不卡在线观看| 欧美人体xx| 激情婷婷亚洲| 欧美日韩三级| 亚洲少妇中出一区| 欧美另类在线播放| 亚洲女性喷水在线观看一区| 欧美精品一区二区高清在线观看| 国产欧美视频在线观看| 免费日韩av片| 国产精品国产三级国产普通话蜜臀| 欧美一区二区三区四区夜夜大片| 久久精品在线观看| 欧美激情中文字幕乱码免费| 99精品欧美一区二区蜜桃免费| 老司机67194精品线观看| 亚洲激情一区二区三区| 美女视频黄 久久| 久久免费99精品久久久久久| **欧美日韩vr在线| 一区二区在线不卡| 国产精品美女久久久久aⅴ国产馆| 久久综合九色综合网站| 欧美三级欧美一级| 国产精品国产三级国产普通话蜜臀| 欧美人成在线视频| 国产美女一区| 亚洲狼人综合| 亚洲欧美一区二区视频| 亚洲高清电影| 国产欧美精品一区二区色综合| 在线不卡a资源高清| 亚洲高清色综合| 欧美精品色综合| 欧美国产视频日韩| 国产日韩欧美一区二区三区在线观看| 亚洲午夜电影| 老司机亚洲精品| 亚洲中午字幕| 久久精品视频在线| 欧美国产第二页| 韩曰欧美视频免费观看| 欧美在线|欧美| 国产午夜亚洲精品不卡| 欧美午夜理伦三级在线观看| 欧美在线首页| 久久久久久亚洲精品中文字幕| 国产精品美女xx| 亚洲另类在线一区| 亚洲精品123区| 欧美激情按摩| 欧美国产日韩免费| 麻豆成人在线| 一区在线视频观看| 一区二区三区不卡视频在线观看| 久久免费观看视频| 快she精品国产999| 欧美三级日韩三级国产三级| 亚洲国产精品va在看黑人| 国产精品magnet| 欧美亚洲日本网站| 99国产精品久久久久久久久久| 亚洲欧美高清| 极品尤物一区二区三区| 欧美激情麻豆| 欧美一区永久视频免费观看| 欧美三级乱人伦电影| 男男成人高潮片免费网站| 欧美黄色小视频| 一本久道久久综合中文字幕| 欧美特黄一级大片| 欧美日韩福利| 亚洲视频播放| 蜜桃av一区二区| 久久中文字幕导航| 欧美日韩国产电影| 久久久久欧美精品| 亚洲黑丝在线| 欧美电影美腿模特1979在线看| 亚洲日本中文字幕免费在线不卡| 国产日韩欧美精品| 中日韩美女免费视频网站在线观看| 国产乱码精品1区2区3区| 在线成人h网| 亚洲电影在线免费观看| 欧美一区三区三区高中清蜜桃| 中文有码久久| 欧美一区二区三区在线观看视频| 亚洲香蕉在线观看| 欧美激情一区在线观看| 欧美激情亚洲另类| 午夜精品久久久久久久男人的天堂| 久久嫩草精品久久久久| 欧美激情中文字幕一区二区| 欧美伊久线香蕉线新在线| 夜夜嗨av色综合久久久综合网| 媚黑女一区二区| 久久国产欧美日韩精品| 欧美色中文字幕| 欧美午夜精品一区| 99精品国产高清一区二区| 欧美亚洲一区在线| 一本久久a久久免费精品不卡| 亚洲综合另类| 老司机免费视频一区二区三区| 欧美精品精品一区| 亚洲精品小视频| 国产精品制服诱惑| 韩国成人福利片在线播放| 日韩亚洲视频| 狠狠色综合日日| 99在线热播精品免费| 一本色道久久88综合亚洲精品ⅰ| 久久精品国产一区二区三区免费看| 亚洲日本成人网| 一区二区三区高清视频在线观看| 国产日韩精品入口| 欧美四级在线观看| 精品动漫3d一区二区三区免费| 亚洲一区二区免费视频| 国产精品每日更新在线播放网址| 欧美韩日一区二区| 这里只有精品在线播放| 久久国产99| 国产日韩精品一区二区三区在线| 亚洲欧洲精品成人久久奇米网| 亚洲精品免费网站| 欧美婷婷久久| 国产精品视频自拍| 国产精品影片在线观看| 久久蜜桃精品| 欧美精品电影| 夜夜精品视频| 欧美日韩中文字幕| 影音先锋在线一区| 韩国一区电影| 亚洲高清av在线| 猛干欧美女孩| 亚洲肉体裸体xxxx137| 尤物九九久久国产精品的分类| 男女精品视频| 欧美日韩亚洲一区二区| 在线日韩一区二区| 韩日欧美一区二区| 在线视频一区二区| 99re6热在线精品视频播放速度| 尹人成人综合网| 在线不卡免费欧美| 在线视频成人| 久久亚洲精品一区二区| 亚洲国产精品精华液网站| 日韩亚洲综合在线| 亚洲成人在线视频播放| 国产欧美在线视频| 91久久国产自产拍夜夜嗨| 伊人久久婷婷色综合98网| 国产精品magnet| 免费人成网站在线观看欧美高清| 亚洲调教视频在线观看| 亚洲欧美综合| 国产精品亚洲不卡a| 日韩视频在线观看免费| 欧美va天堂va视频va在线| 亚洲欧洲视频| 亚洲国产欧美一区二区三区丁香婷| 欧美一区二区三区免费看| 日韩一级网站| 久久国产欧美日韩精品| 性做久久久久久免费观看欧美| 亚洲男人的天堂在线aⅴ视频| 在线观看一区二区视频| 欧美激情在线| 久热精品视频在线免费观看| 久久久久久亚洲精品中文字幕| 亚洲第一毛片| 激情欧美一区二区| 亚洲精品三级| 国产精品日韩电影| 久久久精品动漫| 亚洲国产精品美女| 亚洲私人黄色宅男|