《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于混合重采樣的非平衡數據SVM訓練方法
基于混合重采樣的非平衡數據SVM訓練方法
2016年微型機與應用第12期
郭亞偉,白治江
(上海海事大學 信息工程學院,上海 201306)
摘要: 針對傳統的SVM算法在非平衡數據分類中分類效果不理想的問題,提出一種基于分類超平面和SMOTE過采樣方法(HB_SMOTE)。該方法首先對原始訓練樣本集使用WSVM算法找到分類超平面,然后按一定標準剔除負類中被錯分的樣本、靠近分類超平面的樣本以及遠離分類超平面的樣本。在UCI數據集上的實驗結果表明:與RU_SMOTE等重采樣方法相比,HB_SMOTE方法對正類樣本和負類樣本都具有較高的分類準確率。
Abstract:
Key words :

  郭亞偉,白治江

  (上海海事大學 信息工程學院,上海 201306)

  摘要:針對傳統的SVM算法在非平衡數據分類中分類效果不理想的問題,提出一種基于分類超平面SMOTE過采樣方法(HB_SMOTE)。該方法首先對原始訓練樣本集使用WSVM算法找到分類超平面,然后按一定標準剔除負類中被錯分的樣本、靠近分類超平面的樣本以及遠離分類超平面的樣本。在UCI數據集上的實驗結果表明:與RU_SMOTE等重采樣方法相比,HB_SMOTE方法對正類樣本和負類樣本都具有較高的分類準確率。

  關鍵詞非平衡數據集;SMOTE;分類超平面;SVM;混合重采樣

0引言

  支持向量機(SVM)[1]因其能夠有效地避免維數災難,實現全局最優,具有嚴謹的理論基礎和良好的泛化能力,現已成為機器學習領域的熱點問題。傳統的SVM方法需要其各類樣本集的規模相同。然而在現實生活中,往往會遇到一些非平衡數據分類問題,如入侵檢測、文本分類、醫療診斷等。使用這些數據對SVM方法進行訓練建模時,分類決策面會向少數類偏移,導致少數類的分類準確率降低。國內外學者針對此類問題進行了深入的研究,提出了許多不同的處理方案。

  目前,針對非平衡數據下SVM分類問題的研究主要集中在算法層面和數據重采樣兩個方面。算法層面主要是代價敏感性方法。這種方法雖然增加了少數(正)類的分類準確率,但卻犧牲了多數(負)類的分類準確率,總的分類效果也受到了極大的影響[2]。數據重采樣技術主要是過采樣和欠采樣。過采樣主要包括隨機過采樣、SMOTE[2]算法、BorderlineSMOTE[3]技術等。這些過采樣方法雖然可以確保原始分類信息的完整性,但是由于新合成的正類樣本不能準確表達原始樣本集的信息,從而導致過擬合,同時也會增加計算復雜度。欠采樣主要包括隨機欠采樣、基于聚類欠采樣的極端學習機[4]等。單一的欠采樣技術雖然可以降低計算復雜度,但是在刪除樣本時通常會導致負類樣本中部分信息缺失,影響分類準確性。

  參考文獻[5]表明相較于單一的采樣方法,混合重采樣方法往往能夠得到更好的分類效果。參考文獻[6]表明對于分類來說最重要的數據是位于邊界的樣本,噪聲樣本和距離分類邊界較遠的樣本對數據信息的貢獻不大。據此,本文提出了一種基于混合重采樣和分類超平面的分類方法并在UCI數據集上進行建模訓練,驗證算法的有效性。

1基本的分類方法

  1.1SMOTE算法

  SMOTE算法[2]是由CHAWLA N V等人提出的一種過采樣方法。該算法步驟如下。

 ?。?)對正類中的每一個樣本x,計算它到該類中其他每個樣本的歐氏距離,獲取其k個最近鄰樣本,并記錄近鄰下標。

 ?。?)按照兩類數據集不均衡的比率設置正類的采樣倍率N,對所有正類樣本x,從k個最近鄰中隨機選取xi(i=1,…,N)。

  (3)對每一個近鄰xi,分別與原始樣本x按照xnew=x+rand(0,1)×(xi-x)合成新樣本。

  (4)把合成的新樣本與原始訓練樣本集并為新的訓練集,并在該樣本集上學習。

  1.2SVM與WSVM

  SVM是在統計學習理論中結構風險最小化原則基礎上提出的機器學習方法[1]。其原理是尋找一個最優分類超平面,使得該超平面在保證分類精度的同時,能夠使超平面兩側的空白區域最大化。此外,它還能通過核函數將低維空間中的線性不可分問題轉化為高維空間中的線性可分問題。設訓練樣本集為(xi,yi),i=1,2,…,l,x∈Rn,y∈{±1},超平面記作(w·φ(x))+b=0,其中φ(x)為x從輸入空間Rn到特征空間H的變換。將構造最優超平面問題轉化為求解二次凸規劃問題,即:

  %G}UGCCE1%D~4[LC_7(F]G9.jpg

  為解決由于樣本集失衡導致的分類決策面偏移問題,引入了基于代價敏感的WSVM,主要思想是對錯分的正類和負類樣本分別賦予不同的懲罰系數C+和C-,約束表達式變為:

  [(R[G([[7MG%5_X6IJM89OM.jpg

2混合重采樣方法

  2.1RU_SMOTE算法

  許多學者綜合考慮了過采樣與欠采樣的弊端和優點,提出兩類采樣方法同時使用的混合重采樣方法[5]。RU_SMOTE算法[7]是一種使用隨機欠采樣與SMOTE相結合的混合重采樣方法。算法思想為:先確定合成樣本的比例γ,利用SMOTE算法增加相應比例的正類樣本;然后使用隨機欠采樣刪除負類樣本,使數據達到平衡;通過改變γ調整合成樣本的數量和數據規模;最后使用SVM分類。該算法既能去除負類樣本降低數據規模,又能增添新的樣本信息,緩解由于樣本集失衡而帶來的分類決策面的偏移。

  2.2HB_SMOTE(Hyperplane Based SMOTE)算法

  上述混合重采樣方法雖然取得了比單一采樣方法更好的分類效果,但并沒有克服隨機欠采樣的盲目性。對于分類來說位于邊界的樣本為重要樣本[6],噪聲樣本和距離分類邊界較遠的樣本則是次要樣本,剔除這些樣本不會引起太多的信息損失?;谶@種思想,本文提出了一種改進的混合重采樣算法:首先采用WSVM算法尋找分類邊界,亦即分類超平面;然后按一定標準將被錯分的和靠近分類超平面以及遠離超平面的負類樣本刪除,再對正類利用SMOTE方法進行過采樣使正負類數據達到平衡并且引入新的樣本信息;最后使用SVM建模訓練。

  算法的具體實現步驟如下。

 ?。?)使用WSVM算法對原始數據集進行訓練,尋找分類超平面,即:f(x)=∑li=1α*yiK(Xi,X)+b*=0。

  (2)確定SMOTE合成新樣本的比率γ。對正類樣本進行相應比率的合成過采樣,組成新的正類樣本集。

 ?。?)對步驟(1)訓練集中的每一個負類樣本xi,計算xi到分類邊界f(x)的距離di,并對di進行排序。

 ?。?)對于排好序的di,選取n個最大的dj(j=1,2,…,n)和m個最小的dj(j=1,2,…,m),分別從原訓練集中刪除與dj對應的這些n+m個點。將剩下的負類樣本與步驟(2)中新正類樣本一起作為新的訓練集。

 ?。?)對新的訓練集使用SVM算法進行分類。

  (6)可以選取不同γ、n和m重復步驟(4)以獲取合適的新負類樣本集。其中n和m決定于γ的變化。

3實驗分析

  3.1評價標準

001.jpg


  許多傳統的分類學習算法主要采用準確率(正確分類的樣本數目占所有樣本總數目的比率)作為分類學習的評價指標,它所對應的混淆矩陣[8]見表1。真實負類FPTN對于非平衡數據集而言,用準確率來評價分類器的性能是不合理的。因為很多情況下雖然總的分類精度很高,但實際上正類的分類精度卻可能很低。如果正類樣本數占總樣本數的1%,即使正類樣本全部分錯,分類精度還是會達到99%。但這卻是無意義的。因此需要采用新的評價方法。定義如下指標:

  Acc+=TP/(TP+FN)

  Acc-=TN/(FP+TN)

  Precision=TP/(FP+TP)

  Recall=TP/(TP+FN)

  本文中,使用G_mean和F_measure作為評價準則:

  G_mean=Acc+·Acc-

  F_measure=2×Recall×PrecisionRecall+Precision

  G_mean性能指標同時兼顧了正負類樣本的分類性能,只有二者的值都大時,G_mean才會大,因此G_mean主要是代表了非平衡數據集的總體的分類性能。性能指標F_measure則綜合考慮正類樣本的查全率和查準率,只有二者的值都大時,F_measure才會大,所以它主要是度量分類器對正類的分類效果。

  3.2實驗

  本文所采用的實驗數據都來自于UCI機器學習數據庫,分別為Glass數據集、Vowel數據集和Segment數據集。由于這3個數據集都是多類數據集,為簡化起見,先將數據集都變為二類分類問題。對Glass數據集選取類標為“7”的數據作為正類,將其余的類合并作為負類。而對Vowel和Segment數據集分別選取類標為“hed”和“brickface”的數據作為正類。這3個數據集的詳細描述詳見表2。

002.jpg

  實驗設計如下:使用MATLAB作為仿真環境并使用LIBSVM工具箱作為實現工具。本文采用10折交叉驗證的方法對數據集進行驗證,在實驗中將本文的HB_SMOTE與SMOTE、隨機欠采樣、RU_SMOTE方法作對比,通過改變SMOTE新樣本的比率得到不同比率下的分類結果,如表3~表6所示。

003.jpg

004.jpg

  由表3~表5可以看出,SMOTE算法性能優于隨機欠采樣,主要因為隨機欠采樣算法隨機刪除樣本的同時也將有用信息刪除。而RU_SMOTE算法要優于SMOTE算法和隨機欠采樣算法,主要因為作為混合采樣其綜合了SMOTE算法和隨機欠采樣的優點。HB_SMOTE算法的G_mean和Acc-比其他3種算法高,表明其總體效果要優于其他3種算法,這是因為該算法剔除了負類樣本集中的噪聲樣本和無用樣本,從而增加了有效樣本的比率。結合表3~表5可以看出,SMOTE合成新樣本的比率不同,優化結果也不盡相同,通過改變SMOTE合成新樣本的比率可以尋求更優的結果。由表6可以看出HB_SMOTE的值要優于其他3種方法,這表明該分類器在一定程度上能夠提升正類的分類效果。

4結論

  SVM在解決小樣本、非線性分類問題上具有顯明的優勢,更重要的是其具有良好的泛化能力。但是在現實生活中廣泛存在著非平衡數據分類的問題,傳統的SVM算法對于少數類樣本的識別準確率較低。本文基于SMOTE過采樣技術提出了一種改進的混合重采樣方法(HB_SMOTE):首先通過WSVM找到分類超平面,據此刪除那些負類樣本集中越界和靠近超平面的樣本以及那些遠離超平面的樣本,從而減少負類樣本集中的噪聲點和無效點。而通過SMOTE算法所合成的正類樣本點則能夠增加少數類樣本集的信息量和密度。在UCI數據集上對比4種算法的實驗結果表明,HB_SMOTE算法性能明顯優于其他3種算法,表明該分類器在相對較少的增加運算規模的基礎上能夠提升少數類的分類精度。

參考文獻

 ?。?] VAPNIK V N.The nature of statistical learning theory[M].New


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          欧美性事免费在线观看| 亚洲一区二区精品在线| 欧美日韩精品一区视频| 欧美日韩成人一区二区| 欧美精彩视频一区二区三区| 在线观看亚洲视频啊啊啊啊| 在线观看视频亚洲| aa亚洲婷婷| 亚洲国产精品综合| 日韩视频三区| 最新亚洲视频| 欧美日韩在线第一页| 国产精品对白刺激久久久| 国产精品一区在线观看你懂的| 91久久国产综合久久| 欧美日韩成人激情| 一区二区不卡在线视频 午夜欧美不卡'| 1024精品一区二区三区| 欧美日韩免费在线视频| 欧美成人一二三| 一区二区三区国产精华| 99在线观看免费视频精品观看| 久久国产精品99久久久久久老狼| 欧美激情一区二区三区在线| 欧美激情一区二区三区四区| 狠狠综合久久av一区二区小说| 国产欧美日韩精品一区| 欧美精品日韩一区| 亚洲一区激情| 久久夜色撩人精品| 9久re热视频在线精品| 女人香蕉久久**毛片精品| 欧美国产精品人人做人人爱| 亚洲激情中文1区| 在线日韩欧美视频| 欧美啪啪一区| 亚洲一区精品在线| 久久视频国产精品免费视频在线| 久久精品国产视频| 午夜欧美不卡精品aaaaa| 亚洲精品少妇30p| 日韩视频欧美视频| 亚洲在线视频网站| 狠狠操狠狠色综合网| 国产精品女人久久久久久| 曰本成人黄色| 国产亚洲欧美日韩美女| 欧美日韩久久不卡| 欧美超级免费视 在线| 欧美色播在线播放| 最新中文字幕一区二区三区| 国外成人在线视频| 亚洲午夜女主播在线直播| 久久久久国产精品麻豆ai换脸| 精品va天堂亚洲国产| 欧美在线一级视频| 久久国产精品电影| 国产欧美精品在线观看| 国产精品日韩欧美一区二区三区| 国产日韩一区在线| 欧美亚州韩日在线看免费版国语版| 欧美日韩高清在线观看| 国产欧美日韩视频一区二区三区| 欧美新色视频| 欧美日韩中文另类| 国产欧美日韩91| 欧美区日韩区| 亚洲欧美电影院| 久久一区二区三区国产精品| 亚洲人成网站精品片在线观看| 影音先锋久久精品| 国产欧美日韩91| 亚洲欧美日本视频在线观看| 久久国产一区二区| 国产精品夜夜夜一区二区三区尤| 亚洲国产欧洲综合997久久| 免费日韩精品中文字幕视频在线| 欧美精品国产| 韩国av一区二区三区四区| 国产精品私拍pans大尺度在线| 欧美午夜免费影院| 久久精品一区二区国产| 亚洲精品九九| 免费国产自线拍一欧美视频| 国产免费成人| 久久蜜桃香蕉精品一区二区三区| 国产综合婷婷| 久久久久久久999精品视频| 欧美精品一区二区三区视频| 亚洲精品一区二区在线观看| 久久久精品国产99久久精品芒果| 亚洲精品美女免费| 亚洲视频欧美在线| 欧美专区第一页| 日韩视频在线永久播放| 国产午夜精品一区二区三区欧美| 亚洲天堂第二页| 欧美无乱码久久久免费午夜一区| 免费观看成人鲁鲁鲁鲁鲁视频| 中文在线资源观看视频网站免费不卡| 黄色成人精品网站| 国产一区香蕉久久| 国内精品视频久久| 亚洲精品女人| 日韩视频专区| 激情久久综艺| 欧美激情女人20p| 久久久久久久久久看片| 欧美激情综合在线| 在线综合亚洲欧美在线视频| 久久久www成人免费无遮挡大片| 欧美在线观看一区二区| 欧美在线看片a免费观看| 性刺激综合网| 欧美黑人在线播放| 一区二区高清视频在线观看| 午夜视频一区在线观看| 国内成人在线| 欧美成人免费全部观看天天性色| 欧美精品在线观看一区二区| 午夜精品久久久久久久| 亚洲欧美日本国产有色| 国产九色精品成人porny| 亚洲综合视频网| 久久综合色婷婷| 国产日韩欧美视频在线| 久久久久久久久久久一区| 久久色在线观看| 亚洲午夜伦理| 亚洲欧美日韩国产精品| 亚洲第一色在线| 久久久久久久999精品视频| av成人免费在线| 亚洲一区三区电影在线观看| 国产一区二区黄色| 亚洲欧美影院| 日韩一级大片| 美国三级日本三级久久99| 午夜精品电影| 一区二区三区日韩欧美| 影音先锋在线一区| 亚洲一区二区三区精品动漫| 欧美一区二区视频在线| 亚洲国产午夜| 欧美h视频在线| 一本久久知道综合久久| 亚洲欧美福利一区二区| 久久一本综合频道| 99av国产精品欲麻豆| 一本色道婷婷久久欧美| 国产视频一区二区三区在线观看| 国产精品久久久久久户外露出| 午夜精品久久久久久久久久久| 国产精品电影在线观看| 久久九九全国免费精品观看| 欧美影院午夜播放| 久久男人资源视频| 国产精品一区二区在线观看| 午夜一区不卡| 激情久久综艺| 欧美激情一区二区三区高清视频| 欧美人成免费网站| 欧美激情亚洲激情| 在线观看精品视频| 亚洲欧美日韩精品久久奇米色影视| 老**午夜毛片一区二区三区| 亚洲二区在线| 欧美精品乱码久久久久久按摩| 亚洲一级高清| 久久久精品国产99久久精品芒果| 亚洲淫性视频| 欧美与欧洲交xxxx免费观看| 亚洲第一精品夜夜躁人人爽| 亚洲综合清纯丝袜自拍| 欧美日韩一区二区在线观看| 激情一区二区| 99亚洲精品| 亚洲片国产一区一级在线观看| 欧美性猛片xxxx免费看久爱| 国产精品网站一区| 亚洲欧美日韩精品久久| 亚洲乱码一区二区| 欧美特黄a级高清免费大片a级| 久久先锋影音av| 久久成人资源| 欧美日韩国产首页在线观看| 国产亚洲精品激情久久| 亚洲人成毛片在线播放| 欧美深夜福利| 亚洲小少妇裸体bbw| 欧美偷拍另类| 亚洲国产精品va在线观看黑人| 国产精品久久午夜| 亚洲免费视频在线观看| 亚洲精品久久嫩草网站秘色| 亚洲毛片在线观看| 国产亚洲永久域名| 午夜在线a亚洲v天堂网2018| 国产欧美精品| 国语自产精品视频在线看抢先版结局| 亚洲韩国一区二区三区| 另类酷文…触手系列精品集v1小说| 亚洲欧美日本另类| 亚洲欧美激情在线视频| 一区二区三区精品久久久| 久久久国产精品亚洲一区| 亚洲伊人网站| 国产一区美女| 国产午夜亚洲精品不卡| 中国成人在线视频| 欧美亚洲专区| 蜜桃av久久久亚洲精品| 欧美日韩国产一区精品一区| 欧美破处大片在线视频| 亚洲欧美精品在线观看| 在线视频欧美日韩精品| 亚洲三级国产| 美女亚洲精品| 国产精品亚洲综合久久| 久久久噜噜噜久久久| 亚洲第一毛片| 国产一区二区高清视频| 亚洲色图在线视频| 国语自产精品视频在线看8查询8| 激情小说另类小说亚洲欧美| 欧美区亚洲区| 欧美日韩一区二区三区免费看| 亚洲视频福利| 欧美精品性视频| 精品99一区二区三区| 久久经典综合| 噜噜噜在线观看免费视频日韩| 国产欧美综合在线| 美女视频一区免费观看| 一本一本久久a久久精品牛牛影视| 亚洲高清资源| 国产精品乱子久久久久| 久久免费99精品久久久久久| 亚洲国产婷婷香蕉久久久久久| 欧美精品不卡| 国产综合久久久久影院| 一区二区三区视频免费在线观看| 亚洲精品护士| 国产精品私房写真福利视频| 欧美www在线| 一二三区精品| 国产精品综合视频| 9色porny自拍视频一区二区| 性欧美大战久久久久久久久| 欧美一区二区| 国产精品进线69影院| 欧美精品麻豆| 狠狠爱成人网| 日韩亚洲国产精品| 国产精品久久久亚洲一区| 亚洲国产高清高潮精品美女| 激情视频亚洲| 国产有码一区二区| 日韩网站免费观看| 欧美一区二区日韩一区二区| 久久资源在线| 久久久av网站| 久久综合成人精品亚洲另类欧美| 久久免费少妇高潮久久精品99| 免费人成精品欧美精品| 亚洲国产精品999| 亚洲精品激情| 国产欧美日韩另类视频免费观看| 亚洲精品乱码久久久久久黑人| 老牛嫩草一区二区三区日本| 在线精品国产成人综合| 亚洲午夜精品久久久久久浪潮| 久久成人精品| 国产精品久久国产三级国电话系列| 国产欧美婷婷中文| 欧美视频中文字幕在线| 麻豆91精品91久久久的内涵| 国产精品v日韩精品v欧美精品网站| 国产精品乱码一区二区三区| 久久福利影视| 韩日精品在线| 久久aⅴ乱码一区二区三区| 激情久久久久久久| 嫩草伊人久久精品少妇av杨幂| 亚洲国产电影| 国产一区二区久久久| 久久五月婷婷丁香社区| 久久亚洲精品欧美| 欧美精品福利在线| 久久免费视频网站| 亚洲免费久久| 最新日韩欧美| 国产日韩欧美一区二区三区在线观看| 亚洲伦理在线免费看| 欧美精品一区二区三区在线看午夜| 国产日韩在线一区二区三区| 亚洲精品欧美激情| 久久精品成人| 亚洲欧洲99久久| 欧美电影免费观看大全| 麻豆久久久9性大片| 亚洲一区二区少妇| 亚洲国产1区| 蜜臀a∨国产成人精品| 国产精品亚洲第一区在线暖暖韩国| 欧美一区二区三区喷汁尤物| 国产日韩欧美中文在线播放| 亚洲欧美日韩国产一区二区三区| 欧美女同在线视频| 欧美在线视频免费播放| 欧美高清视频一区二区| 黄页网站一区| 一区二区三区免费观看| 欧美日本一区二区高清播放视频| 亚洲精品亚洲人成人网| 国产目拍亚洲精品99久久精品| 欧美精品1区2区3区| 亚洲欧美国产高清va在线播| 国产精品xxx在线观看www| 日韩视频在线你懂得| 正在播放欧美一区| 在线国产欧美| 国产精品亚洲人在线观看| 日韩视频永久免费| 国产日韩欧美在线| 久久国内精品视频| 伊人久久亚洲热| 亚洲精品欧洲精品|