《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > PIE:實值屬性離散化方法及應用
PIE:實值屬性離散化方法及應用
來源:微型機與應用2011年第15期
李 杰1,2,王 歡2
(1.中國科學院研究生院,北京 100040; 2.北華航天工業學院 計算機科學與工程系,河北 廊坊
摘要: 提出一種基于概率與信息熵理論的實值屬性離散化方法,綜合考慮了各對合并區間之間的差異性;該方法利用信息熵衡量相鄰區間的相似性,同時考慮離散區間大小和區間類別數對學習精度的影響,并通過概率的方法得到了這兩個因素的衡量標準。仿真結果表明,新方法對See5/C5.0分類器有較好的分類學習能力,并在腫瘤診斷中得到了很好的應用。
Abstract:
Key words :

摘  要: 提出一種基于概率信息熵理論的實值屬性離散化方法,綜合考慮了各對合并區間之間的差異性;該方法利用信息熵衡量相鄰區間的相似性,同時考慮離散區間大小和區間類別數對學習精度的影響,并通過概率的方法得到了這兩個因素的衡量標準。仿真結果表明,新方法對See5/C5.0分類器有較好的分類學習能力,并在腫瘤診斷中得到了很好的應用。
關鍵詞: 離散化;數據挖掘;概率;信息熵

 連續屬性離散化是數據挖掘和機器學習的重要預處理步驟,直接影響到機器學習的效果。在分類算法中,對訓練樣本集進行離散化具有兩重意義:一方面可以有效降低學習算法的復雜度,加快學習速度,提高學習精度;另一方面可以簡化、歸納獲得的知識,提高分類結果的可理解性。很多離散化方法的提出,主要分為以下兩種類型[1]:(1)自底向上和自頂向下的離散化方法。自底向上離散化方法是以每個屬性值為一個區間,然后迭代地合并相鄰區間;自頂向下離散化方法是把整個屬性的值域視為一個區間,遞歸地向該區間中添加斷點。(2)有監督和無監督離散化方法。有監督方法使用決策類信息進行離散化,如Ent-MDLP[2]、CAIM[3]和Chi2-based[4-5]等算法。Ent-MDLP使用熵的理論來評價候選斷點,選擇使得整體熵值最小的斷點作為最終斷點,并且通過最小描述長度原則來確定離散區間數;CAIM是一種自頂向下離散化方法,該方法依據類與屬性間的關聯度,提出一種啟發式離散化標準,計算當前狀態的標準值來判別當前斷點是否應該被加入斷點集合中。自底向上的Chi2-based離散化算法使用卡方統計來確定當前相鄰區間是否被合并,并采用顯著性水平值逐漸降低的方法檢驗系統的不一致率,確定離散化進程是否終止。然而,Chi2-based方法在衡量區間差異時沒有考慮區間大小和區間類別數對離散化結果的影響,可能會導致學習精度的降低;而無監督離散化方法則不考慮類的信息。傳統的無監督離散化方法包括EWD(Equal Width Discretization)和EFD(Equal Frequency Discretization),這兩個算法實現簡單且計算消耗低,但結果往往難以滿足預計的要求。
本文提出一種基于概率與信息熵理論的實值屬性離散化方法PIE(Probability and Information Entropy),綜合考慮了各對合并區間之間的差異性,利用信息熵衡量相鄰區間的相似性,同時考慮離散區間大小和區間類別數對分類能力的影響,并通過概率的方法得到了這兩個因素的衡量指標。實驗結果表明,PIE顯著地提高了See5/C5.0分類器分類學習精度,并在乳腺腫瘤診斷中得到了很好的應用。
1 PIE離散化
 離散化問題描述如下:對于m個連續屬性的數據集,樣本點個數為N,決策類別數為S,數據集中任意一個連續屬性為a,可以將連續屬性的值域離散成I個區間:
     P:{[d0,d1],[d1,d2],…,[dI-1,dI]}
    其中,d0是連續屬性A的最小值,dI是a的最大值,屬性a的值按升序進行排列,{d0,d1,d2,…,dI-1,dI}為離散過程中的斷點集合。屬性a的每個值都可以劃分到離散的I個區間的某一個區間中。

 


 對于一個連續屬性的各對相鄰區間,它們對應的類分布是不同的,類分布最相似的區間應該先被合并。事實上,從信息通信的角度考慮,區間在合并前與合并后需要轉換信息量,轉換的信息量越小,說明兩個區間對應的類分布越相似,它們應該被合并,反之亦然。由于相鄰兩區間的樣本數為M,需要轉換M次,因此,用M×[H(I)-H(I1,I2)]作為區間相似性的衡量標準。
 為了更好地衡量各對合并區間之間的差異性,僅考慮類分布的相似性是不夠的,還需要考慮離散區間大小和區間中類別數對離散化結果的影響,進而會影響到分類器的學習精度。通過概率的方法可獲得兩個因素的衡量標準,對于任意連續屬性,每一對相鄰區間(I1和I2)的樣本數是不同的,可視為變量{Mi},則p({Mi+})代表兩個區間樣本數的集合可能性,即:

2 仿真結果
2.1 UCI數據集實驗結果

 為了評價PIE的性能,采用了UCI機器學習數據庫[7]中的10個數據集,見表1所示。該數據集是數據挖掘等實驗常用的數據,其中包括兩個大的數據集Page-blocks和Letter。PIE方法與以下幾種方法進行了比較:傳統的無監督離散化方法EFD;基于熵的最小描述長度離散化方法Ent-MDLP;流行的自頂向下離散化方法CAIM;經典的自底向上離散化方法Chi2。
 10個數據集分別采用上面的離散化方法進行離散數據,使用Weka數據挖掘工具進行實驗,采用See5分類器對離散后的數據進行分類預測。采用10折交叉驗證的方法,將數據集分成10等份,分別將其中9份作為訓練集,剩下1份作為測試集,重復10次取平均值,對平均學習精度統計進行對比,見表2所示。

 從表2中可以看出,除了Heart和Vowel數據集,本文提出的PIE離散化方法的See5平均學習精度均有所上升,這正是離散化方法期望得到的結果,由此充分顯示了PIE算法的優勢。而對于CAIM、Ent-MDLP和EFD三種離散化方法均則未引入不一致衡量標準,即它們沒有對數據的有效性進行控制,在離散化過程中丟失了大量的信息,導致分類預測的精度比Chi2和PIE方法平均低很多。
2.2 PIE在乳腺腫瘤診斷上的效用
 乳腺腫瘤診斷的實驗數據來自于UCI機器學習數據庫中的Breast Cancer Wisconsin數據集,將Breast Cancer Wisconsin刪掉屬性值不全的病例樣本,剩下683個病例樣本,病理檢測有9項(Clump Thickness、Uniformity of Cell Size、Uniformity of Cell Shape、 Marginal Adhension、Single Epithelial Cell Size、Bare Nuclei、Bland Chromatin、Normal Nucleoli、Mitoses),即9個屬性,每個屬性取值范圍[1,10],病情狀況分為兩類:一類表示腫瘤為惡性,另一類表示腫瘤為良性。這樣,每個樣本有9個連續條件屬性,1個決策屬性,選取樣本的80%作為訓練集,20%作為測試集。
 將Breast Cancer Wisconsin用本文所提出的PIE算法進行離散化,然后分別使用See5和PIE+See5對離散前和離散后的數據進行分類預測,結果見表3。

 從表3中可以明顯看出,未經過離散化處理的BCW病例數據集進行See5分類預測的測試準確度為92.55%,而PIE+See5方法的測試準確度為99.27%,比未被離散化的進行See5預測精度高出6.72%,相當于每1 000個患者中就多出約67個患者可以被準確地診斷出腫瘤為良性或是惡性,對患者及時治療有很大幫助。
 在BCW數據被離散化后,其病理指標被刪去了三項:Uniformity of Cell Shape(細胞形狀均勻度)、Bland Chromatin(平淡的染色質)、Mitoses,可以只考慮其他六項,簡化了信息系統,減輕了醫生的工作量。另外,利用PIE+See5方法離散后不同樣本占樣本總數比例只有44.36%,刪除冗余的病例樣本后,只剩余了303個病例樣本,從而使原來的病例樣本空間在橫向和縱向上都得到了降維,可以得到更加穩固的訓練模型,在醫學數據挖掘中具有良好的發展前景。
 連續屬性離散化方法的研究對數據挖掘與機器學習領域的研究與應用具有重要的作用。本文提出一種基于概率與信息熵理論的實值屬性離散化方法,綜合考慮了各對合并區間之間的差異性,能夠更合理準確地離散化,該方法為該領域提供了新思路,具有一定應用價值意義。
參考文獻
[1] DOUGHERTY J, KOHAVI R, SAHAMI M. Supervised and unsupervised discretization of continuous feature[C]. Proceedings of the 12th International Conference of Machine learning. San Francisco: Morgan Kaufmann, 1995.
[2] FAYYAD U, IRANI K. Multi-interval discretization of continuous-valued attributes for classification learning[C]. Proceedings of the 13th International Joint Conference on Artificial Intelligence. San Mateo, CA: Morgan Kaufmann, 1993.
[3] KURGAN L A, CIOS K J. CAIM discretization algorithm[J]. IEEE Transactions on Knowledge and Data Engineering,2004, 16(2): 145–153.
[4] LIU H, SETIONO R. Feature selection via discretization[J]. IEEE Transactions on Knowledge and Data Engineering,1997, 9(4): 642-645.
[5] CHAO T S, JYH H H. An extended chi2 algorithm for discretization of real value attributes[J]. IEEE Transactions Knowledge and Data Engineering, 2005,17(3):437-441.
[6] PAWLAK Z. Rough sets[J]. International Journal of Computer and Information Sciences, 1982,11(5):341-356.
[7] HETTICH S, BAY S D. The UCI KDD Archive [DB/OL]. http://kdd.ics.uci.edu/, 1999.
 

此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          亚洲午夜精品一区二区| 一区二区三区国产| 亚洲国产天堂久久国产91| 国产字幕视频一区二区| 久久免费国产精品| 久久av一区二区三区漫画| 欧美激情精品久久久久久免费印度| 一本色道88久久加勒比精品| 在线观看国产一区二区| 亚洲精品美女| 国产精品视频最多的网站| 亚洲高清视频的网址| 亚洲国产国产亚洲一二三| 久久欧美中文字幕| 欧美精品一区二区三区很污很色的| 亚洲婷婷国产精品电影人久久| 亚洲国产视频一区| 欧美一区二区在线免费播放| 欧美美女bb生活片| 亚洲欧美中文日韩v在线观看| 亚洲最新色图| 在线观看日韩欧美| 欧美日韩国产欧| 欧美性久久久| 久久精品一区中文字幕| 国产精品大片| 在线不卡免费欧美| 欧美日本一道本在线视频| 欧美色欧美亚洲高清在线视频| 国产偷国产偷精品高清尤物| 国产日韩欧美一区二区| 性欧美1819sex性高清| 欧美精品二区| 亚洲国产毛片完整版| 在线天堂一区av电影| 蜜臀久久99精品久久久久久9| 午夜在线精品| 国产综合视频在线观看| 亚洲国产精品久久久久秋霞影院| 亚洲免费在线视频| 久久综合狠狠| 激情91久久| 亚洲国产99精品国自产| 影音先锋成人资源站| 国产精品乱码一区二三区小蝌蚪| 亚洲毛片av在线| 亚洲性夜色噜噜噜7777| 性欧美xxxx视频在线观看| 亚洲欧美日韩国产综合精品二区| 久久av最新网址| 欧美激情aⅴ一区二区三区| 99精品黄色片免费大全| 欧美午夜免费电影| 亚洲人成人77777线观看| 亚洲人成网在线播放| 久久久午夜视频| 欧美专区日韩视频| 日韩视频一区二区在线观看| 麻豆av福利av久久av| 欧美高清hd18日本| 欧美日韩在线播放三区| 国产精品入口66mio| 国产一区二区高清视频| 日韩视频专区| 欧美天堂亚洲电影院在线播放| 一本色道**综合亚洲精品蜜桃冫| 午夜精品久久久久久| 亚洲第一毛片| 亚洲高清电影| 国产精品自拍一区| 亚洲女性喷水在线观看一区| 欧美成人免费网站| 伊人精品成人久久综合软件| 久久久精品2019中文字幕神马| 国产一区二区三区精品久久久| 亚洲美女福利视频网站| 久久精品盗摄| 欧美日韩一区二区在线| 欧美人牲a欧美精品| 国产精品另类一区| 欧美激情第二页| 欧美精品一区三区在线观看| 久久精品国产亚洲高清剧情介绍| 国产精品欧美一区喷水| 国产精品视频内| 亚洲第一区色| 韩曰欧美视频免费观看| 欧美日韩视频免费播放| 国产精品视频第一区| 亚洲全部视频| 中日韩午夜理伦电影免费| 黄色国产精品一区二区三区| 国产一区二区在线观看免费播放| 悠悠资源网久久精品| 免费在线播放第一区高清av| 国产一区二区电影在线观看| 国产精品综合av一区二区国产馆| 欧美激情视频一区二区三区不卡| 欧美理论电影在线播放| 免费不卡欧美自拍视频| 日韩视频在线一区| 午夜精品视频在线观看| 久久精品国产999大香线蕉| 欧美天堂亚洲电影院在线观看| 欧美日韩国产麻豆| 欧美大片在线看免费观看| 亚洲一区3d动漫同人无遮挡| 亚洲精品久久久久中文字幕欢迎你| 国内伊人久久久久久网站视频| 欧美二区在线观看| 国产精品久久久久久久7电影| 久久久一区二区三区| 欧美精品国产精品日韩精品| 狠狠色香婷婷久久亚洲精品| 国产精品高潮粉嫩av| 国产精品青草综合久久久久99| 一区二区三区在线免费播放| 亚洲视频每日更新| 亚洲开发第一视频在线播放| 国产精品视频一二三| 国产午夜精品福利| 精品va天堂亚洲国产| 在线欧美一区| 亚洲精品在线观看免费| 性18欧美另类| 亚洲国产精品女人久久久| 国内自拍一区| 国产精品网红福利| 美女福利精品视频| 欧美一级电影久久| 一区二区久久久久久| 亚洲国产精品国自产拍av秋霞| 欧美精品自拍偷拍动漫精品| 亚洲裸体俱乐部裸体舞表演av| 亚洲欧洲中文日韩久久av乱码| 欧美一区二粉嫩精品国产一线天| 国产精品久久99| 亚洲日本黄色| 亚洲国产精品久久人人爱蜜臀| 欧美肥婆bbw| 日韩视频不卡| 韩国av一区二区三区在线观看| 亚洲国产一区二区三区高清| 蜜桃av一区二区在线观看| 国产精品毛片大码女人| 欧美母乳在线| 欧美在线www| 国产色产综合产在线视频| 亚洲国产精品久久91精品| 在线观看欧美| 久久久av网站| 国产精品区免费视频| 一区二区日本视频| 国产精品高清一区二区三区| 国产精品护士白丝一区av| 精久久久久久久久久久| 欧美日本精品| 国产九九视频一区二区三区| 国产一区二区三区四区| 老牛国产精品一区的观看方式| 9i看片成人免费高清| 99精品99| 欧美一区二区三区在| av成人动漫| 久久久之久亚州精品露出| 欧美日韩午夜视频在线观看| 久久精品国产综合精品| 欧美国产日产韩国视频| 欧美四级电影网站| 欧美国产专区| 欧美精品一区二区三区在线播放| 国产欧美日韩一级| 国产精品久久国产精麻豆99网站| 亚洲男女毛片无遮挡| 蜜桃av久久久亚洲精品| 欧美日韩在线视频一区二区| 亚洲黄色一区| 亚洲精品裸体| 亚洲二区视频| 裸体一区二区三区| 国产麻豆精品theporn| 欧美午夜大胆人体| 国产午夜精品福利| 亚洲免费伊人电影在线观看av| 欧美激情视频在线播放| 亚洲激情一区二区三区| 亚洲人成网站色ww在线| 欧美日韩视频一区二区| 91久久国产综合久久蜜月精品| 亚洲大胆人体在线| 国产欧美另类| 亚洲电影在线观看| 亚洲精品一区二区在线观看| 国产欧美日韩中文字幕在线| 久久精品亚洲精品国产欧美kt∨| 蜜臀久久久99精品久久久久久| 在线观看三级视频欧美| 亚洲午夜电影网| 国产深夜精品| 激情文学综合丁香| 亚洲欧美大片| 国模精品一区二区三区| 欧美三级乱码| 欧美日本乱大交xxxxx| 国产欧美日韩一区二区三区在线| 欧美精品一区二区三区四区| 国产精品久久久久一区二区三区共| 欧美性淫爽ww久久久久无| 亚洲欧美制服中文字幕| 国产精品日韩一区| 男女激情视频一区| 欧美性猛交xxxx免费看久久久| 国产精品亚洲视频| 亚洲国内欧美| 欧美午夜精品一区| 国产综合视频| av成人免费| 亚洲激情一区二区三区| 欧美视频中文一区二区三区在线观看| 欧美在线免费观看亚洲| 欧美成人精品h版在线观看| 美女性感视频久久久| 欧美成人精品福利| 亚洲黑丝在线| 亚洲色图自拍| 在线免费观看成人网| 国产日韩欧美一区| 亚洲免费福利视频| 一区二区三区.www| 欧美欧美天天天天操| 日韩视频免费大全中文字幕| 亚洲国产一区二区三区a毛片| 一区二区三区在线高清| 亚洲精品乱码久久久久久按摩观| 国产精品五区| 欧美午夜片欧美片在线观看| 一本大道久久a久久精二百| 午夜亚洲精品| 久久久精品久久久久| 亚洲精品美女在线观看播放| 欧美成人免费大片| 一区二区三区.www| 影院欧美亚洲| 欧美一区二区三区免费看| 国产精品永久免费| 欧美精品1区| 亚洲精品在线视频| 久久一区中文字幕| 伊人伊人伊人久久| 国产精品99久久久久久www| 国产一区二区三区日韩欧美| 国产精品一页| 噜噜噜躁狠狠躁狠狠精品视频| 欧美成人免费观看| 亚洲激情一区| 亚洲综合精品自拍| 欧美男人的天堂| 欧美日韩在线影院| 中日韩男男gay无套| 久久影院午夜论| 在线观看亚洲视频| 樱桃视频在线观看一区| 国产毛片精品国产一区二区三区| 久久国产天堂福利天堂| 国产丝袜美腿一区二区三区| 日韩视频一区| 欧美激情片在线观看| 欧美亚洲动漫精品| 欧美激情第1页| 欧美伦理一区二区| 国产欧美一区二区色老头| 亚洲巨乳在线| 欧美日韩成人在线| 99热精品在线| 亚洲欧美综合v| 亚洲视频在线一区| 欧美剧在线免费观看网站| 亚洲一级影院| 国产伦精品一区二区三区高清版| 国产嫩草影院久久久久| 国产精品久久91| 亚洲精品日韩在线| 9l视频自拍蝌蚪9l视频成人| 亚洲图片在线| 久久精品人人爽| 国产精品99久久99久久久二8| 亚洲天堂av高清| 性做久久久久久久免费看| 亚洲美洲欧洲综合国产一区| 老**午夜毛片一区二区三区| 一本一道久久综合狠狠老精东影业| 亚洲精品一区久久久久久| 国产精品久久久久永久免费观看| 国产精品视频久久一区| 亚洲理论电影网| 欧美成人视屏| 欧美日韩精品国产| 欧美一区二区三区免费视频| 葵司免费一区二区三区四区五区| 欧美一区二区高清在线观看| 先锋影音久久久| 国产日韩欧美视频在线| 亚洲图片欧洲图片日韩av| 性欧美超级视频| 亚洲欧美日韩精品久久亚洲区| 国产精品视屏| 久久久久久久综合狠狠综合| 久久精品最新地址| 欧美成人在线免费观看| 亚洲主播在线| 激情久久综合| 国产精品乱人伦中文| 国产欧美日韩伦理| 欧美理论在线播放| 欧美久久久久| 欧美一区二区久久久| 亚洲黄色免费电影| 久久久国产精品一区二区三区| 欧美性猛交一区二区三区精品| 在线观看久久av| 免费看亚洲片| 国模私拍视频一区| 久久精品一区二区三区不卡牛牛| 欧美肥婆在线| 久久成人国产精品| 午夜精品美女自拍福到在线| 午夜性色一区二区三区免费视频| 亚洲国产欧美日韩精品|