代码拉取完成,页面将自动刷新
= Redas_spider_man
使用puppeteer抓取网页
== 使用
确保你已经安装了 `node.js` 环境和 `npm` 包管理,进入项目目录 `/PATH/TO/REDAS_SPIDER_MAN`
=== 安装依赖
[soruce,bash]
----
$ npm install
$ pip install -r requirements.txt
----
如果你想安装nodejs包为全局,请加 `-g` 参数
[soruce,bash]
----
$ npm install -g
----
=== 修改配置
复制 `configs/common.ini.simple` 为 `configs/common.ini` 按照实际情况修改配置 +
[api]中以 `source_` 开头的代表将会从哪个api获取到起始的url +
获取成功的格式为
[soruce,json]
----
{
"code": "SUCCESS",
"message": "成功",
"result": {
"url": "https://www.foo.com/",
"num": 3
}
}
----
获取失败的格式为
[soruce,json]
----
{
"code": "FAILED",
"message": "失败"
}
----
[api]中以 `target_` 开头的代表结果将会发送到哪个api +
格式为
[soruce,json]
----
{
"url": "",
"spiderUuid": "",
"platform": "",
"htmlString": ""
}
[spider]中
`spider_home` 表示js爬虫路径,详情见 `redas_spider_man` 项目
`spider_dir` 表示爬虫路径, `[spider_name,spider_path,cookie_path]` 为一组, 用 `|` 分隔
复制 `configs/log.ini.simple` 为 `configs/log.ini`
创建空的文件 `data/log/error.log` 可以根据需要在配置文件中自行修改
日志的默认等级为 `TRACE` 可以根据需求更改等级
=== 启动
[soruce,bash]
----
$ python3 application
----
=== puppeteer依赖问题
如果遇见puppeteer依赖问题, 执行
[soruce,bash]
----
sudo dnf install pango.x86_64\
libXcomposite.x86_64\
libXcursor.x86_64\
libXdamage.x86_64\
libXext.x86_64\
libXi.x86_64\
libXtst.x86_64\
cups-libs.x86_64\
libXScrnSaver.x86_64\
libXrandr.x86_64\
GConf2.x86_64\
alsa-lib.x86_64\
atk.x86_64\
gtk3.x86_64\
ipa-gothic-fonts\
xorg-x11-fonts-100dpi\
xorg-x11-fonts-75dpi\
xorg-x11-utils\
xorg-x11-fonts-cyrillic\
xorg-x11-fonts-Type1\
xorg-x11-fonts-misc
sudo dnf update nss -y
----
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。