# GetMLData **Repository Path**: redcloudRC/GetMLData ## Basic Information - **Project Name**: GetMLData - **Description**: 量化金融机器学习算法数据治理模块 - **Primary Language**: Unknown - **License**: AGPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-09-05 - **Last Updated**: 2022-09-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, 量化金融 ## README ML Dataset数据集制作流程: (0) 准备好存储因子的parquet文件,复制到S0_sourcedata文件夹中(决定了Dataset中有哪些因子) 准备csv格式的股票清单,复制到根目录下(决定了Dataset中有哪些股票) (1) 打开每一个因子parquet文件,过滤出股票清单上股票的所有数据,并将多个因子横向合并于一张表中,删除含有缺失值的行,结果保存到S1_dataset文件夹中 使用方法: 1)将第(0)步骤所需的parquet文件复制到S0_sourcedata文件夹中,查看config.ini,确认输入输出路径及起止时间是否正确 2)运行Get_ML_Dataset.py 3)Dataset的结果将保存于S1_dataset文件夹中,也可以直接从内存中读取Dataset(line:187)