《電子技術應用》
您所在的位置:首頁 > 其他 > 業界動態 > 一種改進的基于PCA的數據預處理方法

一種改進的基于PCA的數據預處理方法

2020-01-20
作者:陳 燕1,陳亞林2,鄭 軍1
來源:2020年電子技術應用第1期

0 引言

    大數據處理項目中,資源消耗最為突出的是數據的收集和預處理,大約占項目資源支出的80%,其中數據預處理工作量就要占60%左右[1]。究其原因,是因為實際應用系統收集數據時,由于數據源的區別、考慮因素不同及數據收集工具和數據傳輸問題等造成收集到的數據存在數據不完整、重要屬性缺失、有噪聲和數據不一致等問題。要得到高質量的決策,必然要求高質量的數據,所以數據預處理在數據分析工作量中占比最大,目的是給數據挖掘提供準確、一致、及時、權威的數據集。數據預處理工作包括缺失值(空值)處理、異常值處理、數據集成和數據規約,其中數據規約是影響大型數據集預處理效果的主要瓶頸。文獻[2]中提出基于聚類方法實現數據分層;文獻[3]-[4]中提出離群值檢測進行異常值處理,進而數量規約;文獻[5]-[6]中提出基于相似連接實現數據并行處理;文獻[7]-[9]提出了選用二維離散小波進行維度規約的數據預處理;文獻[10]-[11]提出了針對稀疏數據進行數量規約的方法。而針對存在相關性的多個變量,目前廣泛使用主成分分析(Principal Component Analysis,PCA)方法進行降維,從而使用較少的綜合指標來代表原變量中的各類信息,降低數據分析的復雜性。

1 主成分分析PCA

    PCA的思想是將n維特征映射到k維(k<n)全新的正交特征(即主成分)上[12]。其算法描述為:

    (1)輸入:n維特征數據集;

    (2)計算樣本均值:

    jsj2-gs1.gif

    (3)計算樣本方差S2

     jsj2-gs2-5.gif

    (7)得到降序排列的前k個λi對應的特征向量zi組成的矩陣;

    (8)輸出:轉換到k個特征向量構建的新空間數據集。

    由算法描述可知,PCA方法即通過基變換實現降維。為了保證最優變換,PCA采用最大方差來確?;A粜畔⒘康淖畲蠡?。

    使用PCA方法進行數據維規約時,計算易于實現,只需要考慮原數據集的協方差矩陣大小,且k個主成分各自獨立[13]。但PCA方法降維后,主成分的各個特征解釋性有所降低,而且未被選擇的非主成分也可能含有對樣本差異的重要信息,從而造成新的數據不完整。

2 改進的PCA數據預處理方法

    使用PCA方法進行維規約時,首先需要對原數據集中的數據中心化,其后也沒有人為設定參數或參照經驗模型進行計算,從而保證結果和數據相關,且獨立于用戶[14]。由于均值易受極端值影,簡單地使用與均值相減實現數據中心化是造成映射所得主成分的特征解釋性降低的原因之一。為了解決這一問題,在對數據中心化時,用加權規范化均值來代替均值實現數據中心化。加權規范化均值計算公式為:

    jsj2-gs6.gif

其中,Id為數據集中的元素,d為元素與均值差,wd為每個元素對應d所分配的權值,滿足∑wd=1。

    改進后的PCA算法描述為:

    (1)輸入:n維數據集X={x1,x2,…,xn};

    jsj2-gs7-8.gif

    (5)計算目標函數,其中v為單位向量:

    jsj2-gs9.gif

    (6)得到max(f(v))的必要條件為Cv=λv,則v為協方差矩陣的特征向量,其保存的信息量為特征值λ;

    (7)將協方差矩陣C對角化,得到n個不同的特征值λi,降序排列;

    (8)while(k<=n){

       jsj2-3-s1.gif

    (9)輸出:映射到新基集的數據集。

3 算法驗證實驗

3.1 原始數據集概況

    實驗采用的數據集為長江流域夾江揚州三江營點位南水北調東線取水口斷面2018年52期水質自動監測數據共364條,水質監測指標包括PH值、溶解氧DO、高錳酸鉀指數CODMn、氨氮 NH3-N、總磷TP、總氮TN和總有機碳TOC共7個變量,數據集片段如圖1所示。

jsj2-t1.gif

3.2 數據中心化處理

    PCA方法對每個特征變量求均值,即計算jsj2-3.2-x1.gif=xi-jsj2-3.2-x2.gif,得到中心化后的數據集片段如圖2所示。

jsj2-t2.gif

jsj2-3.3-s1.gif

jsj2-t3.gif

3.3 基于協方差矩陣的特征值確定主成分數量

    根據計算Rayleigh商和Cattell碎石檢驗原則,使用改進PCA方法前后,基于特征值對應的主成分選擇如圖4所示。

jsj2-t4.gif

    由圖4(a)可知,根據特征值對應選擇第1、2、3和7個特征變量即可以表示數據集,數據集由346×7降為346×4,且變量TOC和CODMn、TN和NH3-N相關性較強,但注意到變量TP沒有被解釋。

    由圖4(b)可知,根據特征值對應選擇第1、2、3、4和7個特征變量即可以表示數據集,數據集由346×7降為346×5,且變量TOC和CODMn、TN和NH3-N相關性較強,可以進行合并,并且沒有丟失變量TP的特征數據。

3.4 根據特征向量矩陣生成新數據集

    將特征值對應的特征向量構造矩陣,得到數據降維轉換基,轉換前后數據集特征值示意圖如圖5所示。

jsj2-t5.gif

    由圖5可知,使用PCA方法進行降維處理后,仍然可以保留原始數據集的大部分變量特征值,但實驗證明改進后的PCA方法尋找主成分更為謹慎,對特征特征值描述更加清晰。

4 結論

    主成分分析(PCA)是通過正交變換將n個可能相關的變量轉換為k個(k<n)不相關的變量,從而尋找到代表原數據集的主成分變量的一種統計方法,是目前使用最廣泛的數據維規約算法。理想的PCA方法使用要求最大方差和最少非主成分數據丟失,故使用PCA方法時要關注生成的協方差矩陣質量和特征值的選取數量。中心化數據時將均值計算轉變為加權規范平均值的計算,可以充分考慮各變量特征值的統計性能,保證生成的協方差矩陣質量。通過Rayleigh商和Cattell碎石檢驗原則可以選擇更合理的特征值數目,盡可能避免出現非主成分含有對樣本差異的重要信息丟失。實驗結果表明,改進后的PCA算法更能保證數據完整性,雖然可能會降低維規約的效率,但數據完整是高質量的數據源首先應該考慮的。

參考文獻

[1] 曾祥坤,張俊輝,石拓,等.基于主題提取模型的交通違法行為文本數據的挖掘[J].電子技術應用,2019,45(6):41-45.

[2] 文若晴,馬昂,潘曉.基于密度聚類的簽到軌跡大數據分層預處理研究[J].計算機應用與軟件,2019,36(3):20-28.

[3] ZHANG Y,MERATNIA N,HAVINGA P.Outlier detection tech-niques for wireless sensor networks:a survey[J].IEEE Com-munications Surveys & Tutorials,2010,12(2):159-170.

[4] LEI P R.A framework for anomaly detection in maritime traj-ectory behavior[J].Knowledge and Information Systems,2016,47(1):189-214.

[5] 郭方方,潮洛蒙,朱建文.基于相似連接的多源數據并行預處理方法[J].計算機應用,2019,39(1):57-60.

[6] CHEN Y F,ZHAO X,HE P J,et al.BMGSJoin:a MapReduce based graph similarity join algorithm[J].Pattern Recognition & Artificial Intelligence,2015,28(5):472-480.

[7] 張璽君,袁占亭,張紅,等.交通軌跡大數據預處理方法研究[J].計算機工程,2019,45(6):26-31.

[8] 崔光照,曹祥,張華.基于小波變換的基因表達數據去噪聚類分析[J].信號處理,2005,21(s1):463-466.

[9] SU H,ZHENG K,WANG H,et al.Calibrating trajectory data for similarity-based analysis[C].ACM SIGMOD International Conference on Management of Data.ACM,2013:833-844.

[10] 李志平,付冬梅,穆志純.基于稀疏數據規約的CMAC大氣腐蝕數據補償方法[J].計算機應用研究,2016,33(9):2645-2647.

[11] TAGHAVIPOUR A,FOUMANI M S,BOROUSHAKI M.Implementation of an optimal control strategy for a hydraulic hybrid vehicle using CMAC and RBF networks[J].Scientia Iranica,2012,19(2):327-334.

[12] 范葉平,李玉,楊德勝,等.基于深度集成學習的人臉智能反饋認知方法[J].電子技術應用,2019,45(5):5-8,13.

[13] 謝霖銓,徐浩,陳希邦,等.基于PCA的決策樹優化算法[J].軟件導刊,2019,18(9):69-71,76.

[14] 張云龍.基于PCA的高維流式數據聚類算法[J].電子技術與軟件工程,2019(8):175-176.



作者信息:

陳  燕1,陳亞林2,鄭  軍1

(1.貴陽學院 數學與信息科學學院,貴州 貴陽550002;2.南京財經大學 管理科學與工程學院,江蘇 南京210046)

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          久久国产精品99国产| 欧美华人在线视频| 在线不卡亚洲| 久久免费午夜影院| 国产精品美腿一区在线看| 国产精品欧美精品| 亚洲乱码日产精品bd| 欧美在线免费视频| 国产乱肥老妇国产一区二| 欧美日韩在线精品| 国产精品欧美一区喷水| 欧美亚洲综合久久| 午夜在线观看欧美| 亚洲福利国产| 黄色成人91| **欧美日韩vr在线| 久久激情一区| 国产日韩在线看片| 一区二区不卡在线视频 午夜欧美不卡'| 亚洲国产精品第一区二区| 欧美日韩精品在线| 99亚洲伊人久久精品影院红桃| 欧美日韩ab| 在线播放豆国产99亚洲| 欧美日韩高清在线播放| 免费影视亚洲| 国产一区二区三区精品欧美日韩一区二区三区| 欧美裸体一区二区三区| 国产精品免费观看在线| 欧美日韩国产三级| 欧美一级片在线播放| 日韩午夜在线电影| 国产精品成人一区二区艾草| 欧美在线免费观看亚洲| 欧美 日韩 国产 一区| 国产一区二区三区自拍| 国产一区日韩二区欧美三区| 欧美日本高清| 久久精品视频免费| 国产一区二区按摩在线观看| 激情五月***国产精品| 免费不卡在线观看av| 老司机久久99久久精品播放免费| 欧美成人高清视频| 亚洲永久精品国产| 亚洲午夜一二三区视频| 欧美体内she精视频在线观看| 欧美专区在线播放| 国产精品日产欧美久久久久| 麻豆精品精品国产自在97香蕉| 亚洲午夜成aⅴ人片| 亚洲深夜激情| 久久黄色级2电影| 午夜国产不卡在线观看视频| 狂野欧美性猛交xxxx巴西| 国产精品亚发布| 欧美经典一区二区三区| 久久aⅴ乱码一区二区三区| 欧美一级淫片aaaaaaa视频| 久久免费高清| 国产精品一区二区男女羞羞无遮挡| 美国十次了思思久久精品导航| 在线精品高清中文字幕| 欧美xxx成人| 亚洲国产岛国毛片在线| 久久久久久亚洲精品杨幂换脸| 性欧美xxxx视频在线观看| 国产精品二区二区三区| 久久久蜜臀国产一区二区| 欧美大片国产精品| 欧美性一区二区| 亚洲娇小video精品| 一区二区三区自拍| 国产亚洲欧美一区二区三区| 欧美日韩精品是欧美日韩精品| 久热精品在线| 亚洲毛片在线免费观看| 国内精品美女在线观看| 欧美激情影院| 亚洲大片在线观看| 一区二区亚洲精品国产| 99视频精品免费观看| 欧美激情按摩| 国产在线播精品第三| 欧美mv日韩mv亚洲| 欧美日韩精品综合在线| 先锋影音一区二区三区| 亚洲高清视频中文字幕| 国产精品久久久久99| 亚洲福利视频三区| 国产九九精品视频| 亚洲精品乱码久久久久久按摩观| 免费91麻豆精品国产自产在线观看| 99ri日韩精品视频| 欧美日韩精品在线播放| 亚洲愉拍自拍另类高清精品| 久久久国产91| 狠狠色丁香婷婷综合久久片| 一本到高清视频免费精品| 国产视频久久久久久久| 欧美在线一二三区| 欧美国产日韩视频| 国产精品久久久久久久9999| 久久久久久一区二区| 免费成人av| 精品成人a区在线观看| 国产日韩一区在线| 欧美日精品一区视频| 99这里只有精品| 日韩午夜精品| 一区二区日韩伦理片| 久久亚洲一区二区三区四区| 久久夜色精品国产噜噜av| 国产偷国产偷精品高清尤物| 亚洲视频碰碰| 日韩一区二区免费看| 国产精品久久久久久亚洲毛片| 欧美丝袜一区二区| 欧美精品一区二区三区蜜桃| 亚洲级视频在线观看免费1级| 亚洲欧美视频在线| 亚洲午夜女主播在线直播| 欧美日本二区| 国产精品99久久久久久白浆小说| 国产在线国偷精品产拍免费yy| 国产欧美日韩免费| 欧美日韩一区综合| 亚洲国产成人精品久久久国产成人一区| 极品尤物一区二区三区| 欧美视频中文在线看| 亚洲专区欧美专区| 米奇777在线欧美播放| 久久精品亚洲一区二区三区浴池| 欧美激情一区二区三区不卡| 国产精品一区久久久| 中文久久精品| 欧美激情一区二区在线| 国产精品热久久久久夜色精品三区| 欧美日韩亚洲另类| 欧美激情黄色片| 欧美亚洲免费| 亚洲色诱最新| 欧美一区二区三区四区高清| 在线观看视频欧美| 国产日韩精品一区二区三区在线| 久久精品国产一区二区电影| 亚洲精品国产精品久久清纯直播| 久久国产精品色婷婷| 麻豆精品在线播放| 欧美日韩黄色大片| 校园激情久久| 欧美日韩免费高清一区色橹橹| 亚洲午夜免费福利视频| 性高湖久久久久久久久| 羞羞漫画18久久大片| 在线成人激情视频| 久久国产欧美精品| 久久亚洲综合色| 欧美剧在线免费观看网站| 在线综合亚洲欧美在线视频| 欧美激情一区三区| 久久都是精品| 欧美日韩不卡| 亚洲一区二区在线视频| 欧美日韩精品久久久| 国产日韩欧美亚洲| 欧美日韩免费网站| 久久综合久久综合久久| 亚洲欧美国产日韩中文字幕| 国产亚洲一区在线| 亚洲精品久久久久久久久久久久久| 午夜视频一区二区| 可以看av的网站久久看| 国产精品电影观看| 欧美性事免费在线观看| 午夜精品久久99蜜桃的功能介绍| 欧美日韩国产系列| 另类国产ts人妖高潮视频| 午夜精品区一区二区三| 久久亚洲一区二区三区四区| 欧美日韩在线免费观看| 亚洲视频免费| 久久精品一区二区三区不卡| 亚洲男人影院| 国产精品99久久久久久白浆小说| 欧美精品入口| 亚洲成色999久久网站| 在线观看日韩国产| 久久一区二区三区av| 久久精品一区中文字幕| 香蕉视频成人在线观看| 性欧美大战久久久久久久免费观看| 国产亚洲一区精品| 午夜精品久久久久久久久久久久久| 国产精品v日韩精品| 久久一区二区三区超碰国产精品| 国产亚洲一区二区三区| 亚洲国产精品传媒在线观看| 黄色成人在线网站| 亚洲女优在线| 久久久亚洲国产美女国产盗摄| 久久激情五月婷婷| 久久精品二区亚洲w码| 久久精品在线播放| 99视频精品全国免费| 狠狠久久综合婷婷不卡| 亚洲成色www8888| 亚洲色图自拍| 欧美激情久久久久久| 欧美性感一类影片在线播放| 韩国av一区二区三区四区| 欧美日韩ab片| 国产一区在线免费观看| 一区二区三区欧美视频| 亚洲精品日日夜夜| 亚洲国产福利在线| 在线精品视频一区二区| 国产色婷婷国产综合在线理论片a| 免费成人性网站| 影音先锋久久| 老司机免费视频一区二区三区| 欧美成人精品在线视频| 欧美高清一区二区| 国产精品二区三区四区| 亚洲性感美女99在线| 妖精成人www高清在线观看| 欧美激情区在线播放| 国产精品一区=区| 欧美黑人国产人伦爽爽爽| 国产精品毛片一区二区三区| 亚洲图片自拍偷拍| 国产伦精品一区二区三区四区免费| 欧美三级视频在线播放| 欧美成人在线影院| 亚洲欧美视频在线观看| 欧美freesex交免费视频| 欧美不卡视频一区| 亚洲国产欧美日韩另类综合| 亚洲国产精品一区二区www在线| 99xxxx成人网| 亚洲综合色网站| 亚洲激情视频在线| 老司机成人在线视频| 久久噜噜亚洲综合| 国产拍揄自揄精品视频麻豆| 久久国产精品一区二区三区| 亚洲精品欧美| 国产主播喷水一区二区| 欧美日韩在线一区二区| 国产日韩亚洲欧美综合| 香蕉成人伊视频在线观看| 亚洲黑丝在线| 欧美精品日韩精品| 亚洲成人在线视频播放| 久久久久久网站| 午夜精品久久99蜜桃的功能介绍| 欧美日韩中文字幕精品| 亚洲影音先锋| 欧美激情一区二区三区高清视频| 亚洲精品一区在线观看| 国产精品vip| 老司机成人网| 国产真实乱偷精品视频免| 91久久精品www人人做人人爽| 亚洲电影第1页| 欧美一乱一性一交一视频| 国产日韩欧美a| 亚洲国产精品嫩草影院| 国产精品久久久久久av福利软件| 亚洲男人的天堂在线| 国产三区二区一区久久| 夜久久久久久| 亚洲国产欧美在线| 欧美日韩一级黄| 欧美日韩精品欧美日韩精品| 免费欧美在线| 欧美成人性生活| 亚洲黄色成人久久久| 久久免费视频在线观看| 怡红院av一区二区三区| 欧美国产日韩a欧美在线观看| 亚洲第一主播视频| 136国产福利精品导航| 亚洲黄色影院| 亚洲欧美国产不卡| 伊人久久亚洲影院| 亚洲美女精品成人在线视频| 国产视频精品网| 国产一区二区三区久久久久久久久| 欧美一区二区三区的| 红桃视频国产一区| 在线播放中文字幕一区| 亚洲无亚洲人成网站77777| 亚洲国产精品福利| 欧美人与禽猛交乱配| 欧美一级淫片aaaaaaa视频| 亚洲精品久久久久久久久久久久久| 久久国产一区二区三区| 久久国产精彩视频| 国产欧美在线观看| 亚洲小说欧美另类婷婷| 久久久www成人免费无遮挡大片| 久久久久国产成人精品亚洲午夜| 美女国内精品自产拍在线播放| 亚洲欧美日本精品| 精品动漫3d一区二区三区免费版| 国产精品高清在线| 午夜精品短视频| 国产精品一区二区三区免费观看| 亚洲激情av在线| 国产精品久久福利| 亚洲国产日韩在线一区模特| 极品少妇一区二区三区精品视频| 亚洲国产天堂久久综合网| 欧美剧在线免费观看网站| 国产精品亚洲а∨天堂免在线| 狠狠色噜噜狠狠狠狠色吗综合| 久久中文精品| 精品51国产黑色丝袜高跟鞋| 国产日韩综合一区二区性色av| 国模套图日韩精品一区二区| 一区视频在线| 狠狠色综合网| 激情欧美丁香| 亚洲影院污污.| 亚洲少妇在线| 欧美日韩一区二区三区视频| 老妇喷水一区二区三区|