# AndroidMalware-ngram-RF

**Repository Path**: sweeneysw/AndroidMalware-ngram-RF

## Basic Information

- **Project Name**: AndroidMalware-ngram-RF
- **Description**: 基于机器学习的android恶意代码检测，n-gram opcode + RandomForest
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 6
- **Forks**: 0
- **Created**: 2020-01-06
- **Last Updated**: 2023-12-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 提取Android恶意软件的gram特征,用随机森林训练分类器进行分类

>这个仓库Fork自： https://github.com/DQinYuan/AndroidMalwareWithN-gram.git 。
参考github链接： [链接1](https://github.com/runner-china/runner-china.github.io/blob/ffa4040d5dcc234f15e51301519a1fcf0c872f4b/_posts/2016-04-05-android-malware.md) ,[链接2](https://github.com/UP1998/Software-system-security/blob/7b2baaca2cd25e794299e7fca8b3c2a68146981a/%E5%A4%A7%E4%BD%9C%E4%B8%9A/%E8%BD%AF%E4%BB%B6%E4%B8%8E%E7%B3%BB%E7%BB%9F%E5%AE%89%E5%85%A8%E5%A4%A7%E4%BD%9C%E4%B8%9A.md) 。
[参考硕士论文](https://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CMFD&dbname=CMFD201801&filename=1017090585.nh&uid=WEEvREcwSlJHSldRa1FhdXNXaEhoOHRsbkI2S2l0YWR0TGRKZWFjLy91ST0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&v=MDMyNTBURXFwRWJQSVI4ZVgxTHV4WVM3RGgxVDNxVHJXTTFGckNVUkxPZVp1UnJGQ25sVkx2UFZGMjZHYk94SHQ=)

## 原理

　　按照一定的标准将指令分为MRGITPV七类，按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理，所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。

　　我搜集的样本，恶意样本的规模大多都比较小（恶意软件来自virusShare，最大为5.8M），而良性样本的规模大多都很大（良性软件来自应用宝，最大为20M），所以这里提取的特征是按照每种n-gram是否出现，如果出现过就为1，不出现就为0。

　　良性样本（类别记为1），恶意样本（类别记为0），测试样本（暂且类别设为2），数量分别是154:180:14。

　　检测方法框架：恶意样本/良性样本→apktool反编译→提取smali文件中的dalvik指令集→生成3-gram→使用机器学习算法训练分类器

## 软件模块

　　概述：batch_disasseble.py，bytecode_extract.py，n_gram.py，RF.py是4个可以直接执行的脚本，/infrastructure下的模块全部是给这些脚本提供一些封装好的基础设施，比如smali解析等等。

　　`batch_disasseble.py`:将恶意apk从指定目录反汇编到/smalis/malware/目录下，将良性apk从指定目录反汇编到/smalis/kind/目录下的脚本

　　`bytecode_extract.py`:将字节码从smali文件中提取出来并映射成其分类，最终存储到当前目录下的data.csv的脚本

　　`n_gram.py`:将data.csv提取n_gram特征转换成n_gram.csv的脚本

　　`infrastructure.map`:配置了所有字节码到MRGITPV分类的映射关系　

　　`infrastructure.smali`:Smali类的每个实例代表一个smali文件，用于封装解析smali文件的逻辑

　　`infrastructure.ware`:Ware类的实例代表一个安卓app，该类的实例会包含多个Smali实例，这些Smali实例都是从该app反汇编得到的smali文件得到的。.

　　`RF.py`:用随机森林训练分类器

## 如何运行

  运行环境：ubuntu18.04, anaconda3（python3.6.5）, pycharm2019, 反汇编工具apktool。

  `/smalis/malware和/smalis/kind和/smalis/test`3个文件夹是存放反汇编结果的目录。

  `/bit/VirusAndroid和/bit/normalApk和/bit/testAndroid`3个文件夹是存放恶意软件和良性软件、测试软件的目录。（这几个文件夹都超级大，没办法上传）

  batch_disasseble.py中的virus_root变量的值是存放恶意软件样本根目录，kind_root变量的值是放正常apk样本的目录，test_root变量的值是放测试apk样本的目录。

  按照以下顺序执行命令（或者直接执行run.bat，里面写的就是这些命令）：

```
python batch_disasseble.py
python bytecode_extract.py
python n_gram.py 3
python RF.py
```
  
  python bytecode_extract.py执行结束后会在当前目录生成一个data.csv，这个是在n-gram处理之前的特征，data.csv由SoftwareName,isMalware,Feature三个字段组成，分别代表软件名称，是否恶意软件（是为0，不是为1）和特征，其中Feature字段是该app的所有操作码（被分为了MRGITPV七类表示），其中用"|"分隔不同的method。

  python n_gram.py后面接的参数的含义就是n-gram中的n，命令运行结束之后会在当前目录生成一个n-gram.csv文件，比如我用的python n_gram.py 3，命令执行结束后就会在当前目录生成一个3-gram.csv文件。

## 运行数据

　　data.csv，3_gram.csv 前面样本是良性样本，中间是恶意样本，最后是测试样本。

　　注：本次实验使用的样本很少，不保证结果的准确性，而且反编译时间过长，分类器训练时间在整个实验中占比极小，可以忽略不计，下一步实验要考虑误判率和反编译时间。

　　通过实验比较，下面N取值3，3-gram Opcode ,使用随机森林算法，运行结果截图如下图所示。

![运行结果截图](https://github.com/swhaleDCC/AndroidMalware-ngram-RF/blob/master/result.png?raw=true)