# python-scrapy **Repository Path**: chenxuelei/python-scrapy ## Basic Information - **Project Name**: python-scrapy - **Description**: python 爬虫服务 使用scrapyd + greapy 部署爬虫服务 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-08-05 - **Last Updated**: 2024-08-21 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README scrapy.cfg 项目的配置文件 test_scrapy --items.py 项目中的 item 文件,定义栏目 --pipelines.py 项目中的 piplines 文件,存储数据 --settings.py 项目的设置文件 --spiders/ 放置 spiders 代码的目录 启动 --cd test_scrapy --scrapy crawl IT_charge https://blog.csdn.net/xutengfei999/article/details/121122163 82.157.63.50 gerapy runserver 127.0.0.1:8000 scrapyd-deploy zhengwu -p test_scrapy scrapyd-deploy -l scrapy list docker logs -f c2220df25f4b --tail=500 curl.exe http://localhost:6800/schedule.json -d project=test_scrapy -d spider=BlogSpider 1、获取状态 http://localhost:6800/daemonstatus.json 2、获取项目列表 http://localhost:6800/listprojects.json 3、获取项目下已发布的爬虫列表 http://localhost:6800/listspiders.json?project=myproject 5、获取爬虫运行状态 http://localhost:6800/listjobs.json?project=myproject 6、启动服务器上某一爬虫(必须是已发布到服务器的爬虫) http://localhost:6800/schedule.json (post 方式,data={"project":myproject,"spider":myspider}) 7、删除某一版本爬虫 http://localhost:6800/delversion.json (post 方式,data={"project":myproject,"version":myversion}) 8、删除某一工程,包括该工程下的各版本爬虫 http://localhost:6800/delproject.json(post 方式,data={"project":myproject} #### windows 安装部署 (参考链接:https://blog.csdn.net/qq_43557600/article/details/108762463) Linux 部署问题解决 (参考链接:https://blog.csdn.net/weixin_44683338/article/details/133415081) 1、安装 python 3.8 2、pip install 相关依赖,工具类、gerapy、scrapy (如果包有缺失,缺少什么就 install 什么) pip install beautifulsoup4==4.12.3 pip install Scrapy==2.11.2 pip install beautifulsoup4==4.12.3 pip install beautifulsoup4==4.12.3 pip install scrapyd==1.4.3 pip install scrapyd-client==1.2.3 pip install snowflake==0.11.0 pip install toollib==1.5.6 pip install gerap==0.9.13 pip install PyMySQL==1.1.1 3、启动 scrapyd cmd 中执行 scrapyd 4、新建文件,进入建好的文件夹,打开命令行窗口输入 gerapy init 进入 gerapy 目录下,输入 gerapy migrate # gerapy initadmin # 这是初始化用户,账号密码都是 admin,这样一般用在测试环境中 gerapy createsuperuser # 创建自定义账号 gerapy runserver 127.0.0.1:8000 # 在本地也可以直接 gerapy ruserver 就行 ## Linux 中部署 --安策 47.97.82.166 root/6bdy8FnyuJbrs6ce /home/python_xlc docker save python_fcm_spider_runc:1.0.1 |gzip > python_fcm_spider_runc.tgz docker save germey/gerapy:latest |gzip > gerapy.tgz #docker save 完成后 直接 docker load docker load -i python_fcm_spider_runc.tgz docker load -i gerapy.tgz cd /home/python_xlc docker pull germey/gerapy mkdir -p /home/python_xlc/gerapy #docker run -d --name gerapy -v /home/python_xlc/gerapy:/app/gerapy -p 8000:8000 germey/gerapy docker run -d --name gerapy -v /home/python_xlc/gerapy:/app/gerapy -p 30801:8000 germey/gerapy #docker run -d -p 6800:6800 python_fcm_spider_runc:1.0.1 docker run -d -p 30802:6800 python_fcm_spider_runc:1.0.1 docker logs -f a9cbc52dc0b7 --tail=500 #本地文件部署到 gerapy 服务中 打包 scrapy 项目为 zip,可以上传到 greapy 管理系统中,打包的是 gerapy 文件夹下 projects 下的 test_scrapy 文件夹 ## gerapy 修改密码 http://82.157.63.50:8000/admin/ 进入左上角 chang password http://82.157.63.50:8000/admin/password_change/ 默认账号密码:admin/admin 修改后账号密码:admin/gsmin123