# BTSC **Repository Path**: class-project/btsc ## Basic Information - **Project Name**: BTSC - **Description**: BERT-based Text Sentiment Classification - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-12-16 - **Last Updated**: 2023-12-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # BTSC: Bert-baed Text Sentiment-Classification 基于预训练BERT模型的情感分类项目。 ## 配置 要配置本项目所需环境和组件,您需要获取bert预训练模型和IMDB数据集。 ### python环境 项目根目录下,利用`./requirements.txt`配置项目所需环境: ```bash pip install requirements.txt -r ``` torch需要支持CUDA。 ### BERT预训练模型 项目需要利用BERT预训练模型来进行分词和特征提取,您可以在`huggingface.co`上获取到这些模型。 对于英文输入,推荐使用`bert-base-uncased`,获取地址:[bert-base-uncased · Hugging Face](https://huggingface.co/bert-base-uncased) 对于中文输入,推荐使用`bert-base-chinese`,获取地址:[bert-base-chinese · Hugging Face](https://huggingface.co/bert-base-chinese) 将下载的预训练模型解压至`./models/{YOUR_MODEL}`,然后在`./config.json`中指定模型加载路径(**项目根目录下的相对路径**): ```json { "bert_dir": "{BERT_DIR}", "bert_chinese_dir": "{BERT_CHINESE_DIR_IF_NEEDED}" } ``` ### IMDB数据集 数据集获取地址:[Sentiment Analysis (stanford.edu)](https://ai.stanford.edu/~amaas/data/sentiment/) 将下载所得数据集解压至`./datasets`,然后在`./datasets_config.json`中更新数据集路径(**项目根目录下的相对路径**): ```json { "{YOUR_DATASET_NAME}": "{YOUR_DATASET_DI}", } ``` 环境准备完毕后,修改`./train`中的相关配置,使得路径能被正确读取: ```python BERT_PATH = f"{PROJPATH}/{pconfig.get('bert_dir')}" IMDB_PATH = f"{PROJPATH}/{dconfig.get('imdb')}" DIV_PATH = f"{PROJPATH}/{dconfig.get('div')}" SAVE_TO = f"{PROJPATH}/models/my_model.pt" ``` ## 运行 可供运行的`.py`文件包括根目录下的`./train.py`以及`./script`下的所有文件。 修改路径使得路径能够被正确指定后,可以运行`.py`文件。