《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于大樣本的隨機森林惡意代碼檢測與分類算法
基于大樣本的隨機森林惡意代碼檢測與分類算法
李雪虎,王發明,戰凱
(北京江民新科技術有限公司,北京 100097)
摘要: 隨著互聯網的快速發展,計算機安全問題已經提高到國家安全的戰略角度。但是在互聯網上傳播的惡意代碼數量、種類等都在增加。針對惡意代碼數量龐大、傳統特征檢測覆蓋面不夠廣、準確度不高的問題,提出了在大樣本下基于隨機森林的惡意代碼檢測算法。大樣本下,將PE文件結構特征和敏感API作為輸入特征,采用隨機森林算法對惡意代碼進行檢測。實驗結果表明,大樣本下,隨機森林算法是一種優秀的用于惡意代碼檢測的算法,即使在惡意代碼樣本量龐大的情況下,仍然具有良好的分類效果,其在現實應用中具有重要的價值。
中圖分類號:TP393
文獻標識碼:A
DOI: 10.19358/j.issn.2096-5133.2018.07.001
中文引用格式:李雪虎,王發明,戰凱.基于大樣本的隨機森林惡意代碼檢測與分類算法[J].信息技術與網絡安全,2018,37(7):3-5,21.
Large sample-based random forest malicious code detection and classification algorithm
Li Xuehu, Wang Faming, Zhan Kai
(Beijing Jiangmin New Technology Co., Ltd.,Beijing 100097, China)
Abstract: With the rapid development of Internet, computer security has been raised to the strategic perspective of national security. However, the number and types of malicious code that spread on Internet are increasing. Due to large number of malicious code, insufficient coverage of traditional feature detection, and low accuracy, this paper proposes a malicious code detection algorithm based on random forest under large samples. Under large samples, the structural characteristics of the PE file and the sensitive API are used as input features. The random forest algorithm is used to detect the malicious code. Experimental results show that under large samples, random forest algorithm is an excellent algorithm for malicious code detection. Even if the amount of malicious code is large, it still has a good classification effect. It is of great value in practical application.
Key words : PE file structure features; sensitive API; random forest; malicious code detection and classification

0  引言


隨著互聯網的快速發展,計算機安全問題已經提高到國家安全的戰略角度,但是在互聯網上傳播的惡意代碼的數量、種類等都在增加。根據江民病毒疫情監測預警中心提供的數據顯示[1]:2018年5月,新增病毒1 140種,感染計算機13 569臺。北京、上海、廣州是主要的被感染和受攻擊地區。雖然惡意代碼一直在持續的增長,但是大部分惡意代碼在編寫過程中都是關鍵模塊重利用,其特征行為具有高度的相似性[2]。

首先,惡意代碼為了偽裝自身,會對自身代碼結構進行修改,而修改自身代碼結構的方法則具有規律性;其次,惡意代碼為了實現獲取計算機相關權限、修改計算機重要文件等敏感操作,就需要調用系統相關的API函數來達到目的。所以本文根據以上惡意代碼的特點通過機器學習的方法實現對惡意代碼的辨別與分類。

1  惡意代碼分類算法相關研究

1.1  基于API調用的特征提取

應用程序編程接口(Application Programming Interface, API)是可以作為惡意代碼分類特征使用的,惡意程序通過調用一些API(主要是系統底層API),達到竊取用戶敏感信息或者獲取本計相操作權限等,而這些API在大部分的惡意代碼中均被大量使用,本文將這些API稱為敏感API。在文獻[3]中已經證實在同一種分類算法中,使用敏感API得到的分類結果準確度要優于不使用敏感API得到的分類結果準確度,故本文將敏感API作為惡意代碼分類的特征向量。

一般提取惡意代碼特征主要有兩種方法:靜態分析方法和動態分析方法。靜態分析主要使用IDA[4]、JEB等反匯編工具,主要特征有PE文件結構信息和敏感API調用等。動態分析方法主要是使用沙箱[5](例如布谷鳥)等程序模擬操作系統環境,監測其中未知程序的行為并與已知的惡意代碼行為進行匹配,如果匹配成功,則可判定未知程序為惡意程序。但是在具體的應用過程中發現,由于系統API層次較低,沙箱進行行為監控時,難以獲得行為的準確含義,并且沙箱分析出結果的速度緩慢,耗時較長。由于這些缺點的存在,故本文采用靜態特征分析的方法。

得到特征數據以后,就可以使用機器學習的相關模型進行惡意代碼的分類識別。分類算法有很多,常見的算法有K近鄰(K-Nearest Neighbor, KNN)[6]、支持向量機(Support Vector Machine, SVM)[7]、邏輯回歸(Logistic Regression)[8]、卷積神經網絡(Convolutional Neural Network, CNN)[9]等。本文主要是使用隨機森林進行惡意代碼分類。

1.2  隨機森林

隨機森林可以解釋為若干自變量(X1,X2,…,Xi,…,Xn) 對因變量Y的作用。如果因變量Y有m個觀測值,有n個自變量與之相關(并且大多數情況下,m是遠遠小于n的);在構建決策分類樹的時候,隨機森林會隨機地在原數據中重新選擇m個觀測值,其中有的觀測值可能被多次選擇,有的可能一次都沒有被選到。根據選擇的樣本進行決策樹建模,然后組合多棵決策樹的預測,通過投票得出最終的預測結果。

1.3  隨機森林算法實現

本文的隨機森林算法是在Spark下實現的,采用的是Python第三方庫Pyspark。實驗分為兩個,第一個實驗的輸入為樣本文件的文件特征,包括文件類型、文件大小、文件導入表、文件基地址、文件版本等50個特征作為輸入;第二個實驗的輸入為敏感API特征,其中調節的參數為:numTrees=150,maxDepth=30,labelCol=“indexed”,featuresCol='features',seed=42,其余參數保持不變。本文將總數據集的80%用于訓練,20%用于測試。

2  實驗分析

2.1  實驗數據集

惡意代碼數據集是進行惡意代碼分析的基礎,機器學習算法只有結合相關的數據集對樣本進行訓練,才能更好地實現檢測功能。

本文采用的數據集是江民新科技術有限公司病毒庫中的數據集。本次采用的數據集總量為90萬,其中45萬白樣本,45萬病毒樣本。并且在45萬病毒樣本中,Downloader、Trojan、Backdoor三類樣本樣本量分別是15萬、15萬、15萬。

2.2  實驗環境

實驗環境:CPU:Intel(R) Xeon(R) CPU E5645 @ 2.40 GHz,操作系統CentOS Linux release 7.3.1611,內存32 GB。

Hadoop和Spark的版本為:Hadoop版本2.7.1,Spark版本2.2.1。

2.3  實驗評判標準

用查準率(Precision)、查全率(Recall)和F1度量評估本文算法,通常以關注的類為正類,其他類為負類,指標的取值為0~1。這些度量的計算公式如下:

微信截圖_20181022144401.png

其中,TP(True Positive)是指將正類預測為正類數,FP(False Positive)是指將負類預測為正類數,FN(False Negative)是指正類預測為負類數。

2.4  結果分析

在所選擇的數據集(江民新科技術有限公司病毒庫中的數據集)上將本文的隨機森林算法與支持向量機算法、邏輯回歸算法做比較。

首先進行黑白樣本分類的實驗,查看實驗的查準率、查全率和F1值,從實驗結果可以看出當樣本總量在10萬左右的時候,隨機森林在辨識黑白樣本的效果上與支持向量機算法、邏輯回歸算法相比較,結果并不理想。但是隨著樣本數量增大到90萬,隨機森林模型在辨識黑白樣本的查準率、查全率、F1值從原來的0.732、0.711、0.721提升到0.973、0.973、0.973,都達到了三種分類中的最好,其中在500 000到700 000樣本的時候,查準率、查全率和F1值出現了下降,是因為隨著病毒樣本的增加,其中部分白樣本經過編譯器編譯得到的PE結構信息與部分病毒樣本的結構信息相似,使得隨機森林算法出現了一定的誤差。但是隨著樣本量的繼續增大,這一小部分的樣本對于整體的分類影響逐漸變小。實驗結果如圖1、圖2、圖3所示。

微信截圖_20181022144730.png


其次,再進行基于Downloader、Trojan、Backdoor這三種病毒分類的實驗,本次實驗的惡意代碼數據是總數據集中的45萬病毒樣本。從實驗結果可以看出隨機森林在對Downloader、Trojan、Backdoor三種病毒分類時,與支持向量機分類算法和邏輯回歸分類算法相比較,實驗效果是比較好的。隨著惡意代碼的樣本量從9萬增長到45萬時,查準率、查全率、F1值從原來的0.924、0.918、0.921提升到0.935、0.932、0.934,評判標準都有提升。其實驗結果如圖4、圖5、圖6所示。

微信截圖_20181022144759.png

從以上結果可知,隨機森林在分類的泛化能力上要優于SVM和邏輯回歸。

3  結束語

本文聚焦在大樣本下利用機器學習算法對惡意代碼進行識別和分類檢測,選擇PE文件結構和敏感API作為輸入,實驗數據表明隨機森林的評價效果比支持向量機、邏輯回歸模型的效果優秀。在進行三種病毒分類上,雖然隨機森林的效果最好,但是隨機森林對于某些白樣本使用和病毒樣本相同的編譯器時,容易將其劃分為病毒樣本。其次,準確率仍然不是很高,只有0.935左右,在基于大樣本的前提下,模型的分類效果仍然需要提升,以上兩個問題是本文今后工作的重點。


參考文獻

[1] 江民病毒疫情監測預警中心.江民病毒疫情歷史數據統計[EB/OL].[2018-05-30].http://virusinfo.jiangmin.com/virinfo/virusDataStat.aspx.

[2] SIKORSKI M, HONIG A.惡意代碼分析實戰[M].諸葛建偉,姜輝,張光凱,譯.北京:電子工業出版社,2014.

[3] 盛超,魏盛娜. 基于權限與敏感API的惡意程序檢測方法[J]. 電腦知識與技術, 2017, 13(33):67-69.

[4] HEX-RAYS SA. IDA pro introduction[EB/OL]. [2018-05-30].http://www.hex-rays. com/products.shtml/.

[5] BABU A J,RAVEENDRANATH R,RAJAMANJ V,et al,Dissecting SMS malwares in Android[C] //Proceedings of International Conference on Contemporary Computing and Informatics,2014:1065-1069.

[6] ABOU-ASSALEH T, CERCONE N, KESELJ V, et al. N-gram-based detection of new malicious code[C]//The 28th Annual International Computer Software and Applications Conference (COMPSAC), 2004:41-42.

[7] ANDERSON B, QUIST D, NEIL J, et al. Graph-based malware detection using dynamic analysis[J]. Journal in Computer Virology,2011, 7(4): 247-258.

[8] 郭尚瓚. 基于流量行為特征的僵尸網絡研究與檢測[D]. 北京:北京郵電大學, 2016.

[9] 楊曄. 基于行為的惡意代碼檢測方法研究[D]. 西安:西安電子科技大學, 2015.

(收稿日期:2018-06-26)

作者簡介:

李雪虎(1990-),男,學士,工程師,主要研究方向:反病毒、逆向分析、網絡攻防。

王發明(1993-),男,學士,工程師,主要研究方向:大數據、分布式、機器學習。

戰凱(1990-),男,碩士研究生,主要研究方向:推薦系統、反病毒。


此內容為AET網站原創,未經授權禁止轉載。
热re99久久精品国产66热_欧美小视频在线观看_日韩成人激情影院_庆余年2免费日韩剧观看大牛_91久久久久久国产精品_国产原创欧美精品_美女999久久久精品视频_欧美大成色www永久网站婷_国产色婷婷国产综合在线理论片a_国产精品电影在线观看_日韩精品视频在线观看网址_97在线观看免费_性欧美亚洲xxxx乳在线观看_久久精品美女视频网站_777国产偷窥盗摄精品视频_在线日韩第一页
  • <strike id="ygamy"></strike>
  • 
    
      • <del id="ygamy"></del>
        <tfoot id="ygamy"></tfoot>
          <strike id="ygamy"></strike>
          夜夜嗨一区二区| 欧美日韩免费一区二区三区| 欧美亚洲免费电影| 国产精品久久久久久一区二区三区| 国产精品久久二区| 久久综合给合| 久久精品首页| 亚洲香蕉在线观看| 美腿丝袜亚洲色图| 国产欧美日韩精品a在线观看| 国产精品美女999| 日韩视频免费观看高清在线视频| 国产精品视频精品视频| 国产欧美一区二区三区另类精品| 在线一区二区三区四区| 亚洲人线精品午夜| 久热精品视频在线观看一区| 国产美女精品免费电影| 久久婷婷国产综合尤物精品| 精品成人一区二区| 一区二区高清在线| 欧美精品乱人伦久久久久久| 亚洲小说春色综合另类电影| 欧美黄免费看| 欧美一区亚洲二区| 一区二区三区视频在线| 久久国内精品自在自线400部| 精品69视频一区二区三区| 欧美激情1区2区3区| 亚洲一二三区视频在线观看| 亚洲激情av| 夜夜嗨av一区二区三区网站四季av| 亚洲美女在线观看| 一区免费观看| 亚洲免费观看高清完整版在线观看熊| 午夜国产精品视频免费体验区| 亚洲一区二区久久| 日韩视频精品在线| 国产色综合天天综合网| 可以看av的网站久久看| 亚洲国产精品嫩草影院| 亚洲高清精品中出| 久久gogo国模啪啪人体图| 国产一区久久| 欧美在线啊v| 欧美在线3区| 亚洲欧美在线另类| 国产精品夫妻自拍| 国产精品一区在线观看| 国产视频精品va久久久久久| 欧美一区二区日韩一区二区| 一本色道久久88综合亚洲精品ⅰ| 亚洲精品视频啊美女在线直播| 伊人久久亚洲影院| 免费的成人av| 亚洲自拍偷拍视频| 牛人盗摄一区二区三区视频| 欧美激情精品| 午夜日韩视频| 亚洲国产天堂久久综合网| 亚洲一区美女视频在线观看免费| 国产无一区二区| 亚洲每日在线| 亚洲欧美视频一区| 亚洲美女视频在线免费观看| 亚洲高清久久久| 亚洲视频在线观看一区| 亚洲精品影院在线观看| 欧美—级在线免费片| 久久午夜激情| 亚洲精品在线看| 亚洲美女在线观看| 亚洲一区二区精品在线观看| 玖玖在线精品| 欧美中文在线观看| 欧美综合第一页| 快she精品国产999| 国产精品久久久久免费a∨大胸| 91久久精品美女高潮| 久久久久久久999| 久久―日本道色综合久久| 午夜视频一区在线观看| 久久成人免费| 欧美巨乳波霸| 在线观看欧美精品| 一本久久精品一区二区| 亚洲人午夜精品| av成人手机在线| 国产精品久久国产三级国电话系列| 黄色成人在线免费| 欧美不卡一卡二卡免费版| 国产一区二区三区高清| 欧美日韩精品二区第二页| 亚洲国产精品一区二区三区| 日韩视频一区二区| 国产一区二区三区视频在线观看| 欧美日韩国产综合网| 欧美日本精品在线| 最新成人av网站| 久久成人一区二区| 最新国产拍偷乱拍精品| 国内精品久久久久影院 日本资源| 激情懂色av一区av二区av| 国产精品v欧美精品∨日韩| 国内精品免费在线观看| 国产精品进线69影院| 欧美中文在线观看国产| 欧美日韩一区在线| 中国亚洲黄色| 好吊日精品视频| 在线成人www免费观看视频| 国产精品永久免费观看| 狠狠色综合播放一区二区| 亚洲第一页中文字幕| 99香蕉国产精品偷在线观看| 欧美激情中文字幕在线| 久久久亚洲成人| 久久夜精品va视频免费观看| 久久精品国产亚洲一区二区三区| 亚洲综合久久久久| 欧美亚洲综合网| 亚洲全部视频| 欧美成年网站| 久久综合婷婷| 欧美天堂亚洲电影院在线观看| 一区福利视频| 国产精品美女黄网| 亚洲欧洲精品一区二区精品久久久| 久久久久久**毛片大全| 欧美日韩综合不卡| 欧美日韩欧美一区二区| 日韩午夜三级在线| 性色一区二区三区| 激情亚洲成人| 91久久国产精品91久久性色| 国产欧美婷婷中文| 亚洲日本久久| 日韩一二三区视频| 国产精品欧美久久久久无广告| 欧美高清视频在线观看| 亚洲综合社区| 久久免费国产精品| 亚洲香蕉伊综合在人在线视看| 国产精品高潮呻吟久久| 亚洲欧洲日本国产| 国模私拍一区二区三区| 国产午夜精品全部视频在线播放| 亚洲一区二区三区在线视频| 99国产精品久久久久老师| 一本色道久久加勒比精品| 亚洲精选一区二区| 亚洲精品之草原avav久久| 国产日韩视频一区二区三区| 91久久精品国产91性色| 亚洲国产成人av好男人在线观看| 国产伦精品一区二区三区| 亚洲性xxxx| 亚洲免费观看| 亚洲视频成人| 国产午夜精品全部视频播放| 伊人久久亚洲影院| 欧美久久婷婷综合色| 麻豆乱码国产一区二区三区| 亚洲精品国产拍免费91在线| 99精品欧美一区| 国产精品久久激情| 亚洲高清视频在线观看| 亚洲人成在线播放网站岛国| 国产亚洲激情在线| 欧美日韩在线看| 在线视频亚洲欧美| 欧美午夜视频一区二区| 亚洲麻豆一区| 亚洲国产一区二区三区青草影视| 久久艳片www.17c.com| 国产精品久久久久免费a∨| 亚洲第一福利在线观看| 在线观看成人av| 免费不卡视频| 男人的天堂成人在线| 亚洲高清资源| 日韩视频在线观看国产| 亚洲激情av在线| 国产免费成人av| 欧美国产日韩在线| 欧美a级片网| 欧美一区二区三区久久精品茉莉花| 亚洲精品一二区| 性做久久久久久久免费看| 亚洲国产精品va在线看黑人| 亚洲美女av在线播放| 亚洲一区二区三区视频播放| 国产精品福利网站| 亚洲三级免费观看| 欧美高清在线一区二区| 亚洲一本视频| 欧美国产日韩在线观看| 久久九九久精品国产免费直播| 国产精品免费在线| 亚洲国产国产亚洲一二三| 亚洲国产天堂久久国产91| 国产精品日日做人人爱| 国产精品国产三级国产| 国产一区二区0| 欧美日韩亚洲国产一区| 国产精品久久久久久久一区探花| 欧美午夜免费影院| 亚洲一级网站| 欧美日韩在线播放| 国产日韩av在线播放| 黄色成人91| 亚洲电影第三页| 欧美精品1区2区3区| 亚洲国产高清aⅴ视频| 久久精品中文字幕一区二区三区| 国产农村妇女精品一区二区| 亚洲欧美久久久久一区二区三区| 伊人蜜桃色噜噜激情综合| 欧美在线视频网站| 欧美粗暴jizz性欧美20| 亚洲精品日韩在线观看| 欧美在线观看一区二区| 国产精品视频yy9099| 欧美激情视频一区二区三区在线播放| 欧美激情五月| 一区二区三区你懂的| 亚洲高清精品中出| 另类天堂视频在线观看| 国产精品国产三级国产a| 欧美大片va欧美在线播放| 欧美在线播放| 欧美色区777第一页| 欧美性jizz18性欧美| 狠狠色综合日日| 亚洲国产精品久久91精品| 欧美激情精品久久久久久黑人| 国产夜色精品一区二区av| 在线观看一区二区视频| 欧美大尺度在线| 欧美日韩国产小视频| 亚洲人成人一区二区在线观看| 性色av一区二区怡红| 国内偷自视频区视频综合| 久久国产精品色婷婷| 欧美日本在线视频| 国产精品成人av性教育| 欧美精品日韩www.p站| 亚洲欧美日韩综合国产aⅴ| 一区二区三区 在线观看视频| 亚洲久久成人| 久久精品二区| 亚洲福利在线观看| 亚洲欧美国产毛片在线| 亚洲综合电影一区二区三区| 亚洲女性裸体视频| 模特精品在线| 日韩午夜剧场| 国内精品写真在线观看| 亚洲精选中文字幕| 国产精品国产亚洲精品看不卡15| 国产视频观看一区| 欧美午夜视频| 欧美午夜无遮挡| 国内不卡一区二区三区| 亚洲在线网站| 欧美电影免费观看高清完整版| 欧美色精品天天在线观看视频| 亚洲视频精品在线| 加勒比av一区二区| 国产精品美女久久久免费| 亚洲天堂网在线观看| 蜜臀a∨国产成人精品| 蜜桃精品久久久久久久免费影院| 亚洲国产精品va在线看黑人动漫| 欧美激情第二页| 在线观看欧美成人| 久久久久国色av免费看影院| 午夜精品国产| 欧美激情视频在线播放| 久久在线播放| 国内揄拍国内精品久久| 国产日本欧美一区二区三区在线| 亚洲欧美一区在线| 国产一区二区三区高清播放| 久久久亚洲高清| 亚洲制服丝袜在线| 欧美经典一区二区| 激情欧美丁香| 一区在线播放| 国内精品伊人久久久久av一坑| 一区二区三区在线观看视频| 久久国内精品自在自线400部| 久久精品亚洲一区二区三区浴池| 欧美日韩成人综合在线一区二区| 亚洲国产精品免费| 亚洲高清在线播放| 久久久一二三| 亚洲日产国产精品| 亚洲欧美国产一区二区三区| 美女露胸一区二区三区| 亚洲成色777777在线观看影院| 在线观看一区二区视频| 久久久久久一区二区三区| 亚洲欧美日韩综合国产aⅴ| 国产精品99久久久久久白浆小说| 一区在线播放视频| 久久九九精品| 亚洲欧美日韩在线| 国产精品www色诱视频| 在线中文字幕一区| 久久久久久亚洲精品不卡4k岛国| 在线看一区二区| 欧美日韩美女在线观看| 亚洲欧美偷拍卡通变态| 亚洲欧美日本视频在线观看| 久久久午夜视频| 国产精品永久免费在线| 国产精品美女www爽爽爽视频| 国产精品高潮呻吟| 欧美黄色视屏| 欧美本精品男人aⅴ天堂| 亚洲激情社区| 国产日本欧美一区二区三区在线| 亚洲第一精品久久忘忧草社区| 激情久久影院| 欧美专区在线观看一区| 亚洲一区在线直播| 欧美专区在线播放|