# AndroidMalware-ngram-RF **Repository Path**: sweeneysw/AndroidMalware-ngram-RF ## Basic Information - **Project Name**: AndroidMalware-ngram-RF - **Description**: 基于机器学习的android恶意代码检测,n-gram opcode + RandomForest - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 0 - **Created**: 2020-01-06 - **Last Updated**: 2023-12-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 提取Android恶意软件的gram特征,用随机森林训练分类器进行分类 >这个仓库Fork自: https://github.com/DQinYuan/AndroidMalwareWithN-gram.git 。 参考github链接: [链接1](https://github.com/runner-china/runner-china.github.io/blob/ffa4040d5dcc234f15e51301519a1fcf0c872f4b/_posts/2016-04-05-android-malware.md) ,[链接2](https://github.com/UP1998/Software-system-security/blob/7b2baaca2cd25e794299e7fca8b3c2a68146981a/%E5%A4%A7%E4%BD%9C%E4%B8%9A/%E8%BD%AF%E4%BB%B6%E4%B8%8E%E7%B3%BB%E7%BB%9F%E5%AE%89%E5%85%A8%E5%A4%A7%E4%BD%9C%E4%B8%9A.md) 。 [参考硕士论文](https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CMFD&dbname=CMFD201801&filename=1017090585.nh&uid=WEEvREcwSlJHSldRa1FhdXNXaEhoOHRsbkI2S2l0YWR0TGRKZWFjLy91ST0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&v=MDMyNTBURXFwRWJQSVI4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUkxPZVp1UnJGQ25sVkx2UFZGMjZHYk94SHQ=) ## 原理   按照一定的标准将指令分为MRGITPV七类,按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理,所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。   我搜集的样本,恶意样本的规模大多都比较小(恶意软件来自virusShare,最大为5.8M),而良性样本的规模大多都很大(良性软件来自应用宝,最大为20M),所以这里提取的特征是按照每种n-gram是否出现,如果出现过就为1,不出现就为0。   良性样本(类别记为1),恶意样本(类别记为0),测试样本(暂且类别设为2),数量分别是154:180:14。   检测方法框架:恶意样本/良性样本→apktool反编译→提取smali文件中的dalvik指令集→生成3-gram→使用机器学习算法训练分类器 ## 软件模块   概述:batch_disasseble.py,bytecode_extract.py,n_gram.py,RF.py是4个可以直接执行的脚本,/infrastructure下的模块全部是给这些脚本提供一些封装好的基础设施,比如smali解析等等。   `batch_disasseble.py`:将恶意apk从指定目录反汇编到/smalis/malware/目录下,将良性apk从指定目录反汇编到/smalis/kind/目录下的脚本   `bytecode_extract.py`:将字节码从smali文件中提取出来并映射成其分类,最终存储到当前目录下的data.csv的脚本   `n_gram.py`:将data.csv提取n_gram特征转换成n_gram.csv的脚本   `infrastructure.map`:配置了所有字节码到MRGITPV分类的映射关系    `infrastructure.smali`:Smali类的每个实例代表一个smali文件,用于封装解析smali文件的逻辑   `infrastructure.ware`:Ware类的实例代表一个安卓app,该类的实例会包含多个Smali实例,这些Smali实例都是从该app反汇编得到的smali文件得到的。.   `RF.py`:用随机森林训练分类器 ## 如何运行 运行环境:ubuntu18.04, anaconda3(python3.6.5), pycharm2019, 反汇编工具apktool。 `/smalis/malware和/smalis/kind和/smalis/test`3个文件夹是存放反汇编结果的目录。 `/bit/VirusAndroid和/bit/normalApk和/bit/testAndroid`3个文件夹是存放恶意软件和良性软件、测试软件的目录。(这几个文件夹都超级大,没办法上传) batch_disasseble.py中的virus_root变量的值是存放恶意软件样本根目录,kind_root变量的值是放正常apk样本的目录,test_root变量的值是放测试apk样本的目录。 按照以下顺序执行命令(或者直接执行run.bat,里面写的就是这些命令): ``` python batch_disasseble.py python bytecode_extract.py python n_gram.py 3 python RF.py ``` python bytecode_extract.py执行结束后会在当前目录生成一个data.csv,这个是在n-gram处理之前的特征,data.csv由SoftwareName,isMalware,Feature三个字段组成,分别代表软件名称,是否恶意软件(是为0,不是为1)和特征,其中Feature字段是该app的所有操作码(被分为了MRGITPV七类表示),其中用"|"分隔不同的method。 python n_gram.py后面接的参数的含义就是n-gram中的n,命令运行结束之后会在当前目录生成一个n-gram.csv文件,比如我用的python n_gram.py 3,命令执行结束后就会在当前目录生成一个3-gram.csv文件。 ## 运行数据   data.csv,3_gram.csv 前面样本是良性样本,中间是恶意样本,最后是测试样本。   注:本次实验使用的样本很少,不保证结果的准确性,而且反编译时间过长,分类器训练时间在整个实验中占比极小,可以忽略不计,下一步实验要考虑误判率和反编译时间。   通过实验比较,下面N取值3,3-gram Opcode ,使用随机森林算法,运行结果截图如下图所示。 ![运行结果截图](https://github.com/swhaleDCC/AndroidMalware-ngram-RF/blob/master/result.png?raw=true)