# spider-web
**Repository Path**: fish_that_will_change/spider-web
## Basic Information
- **Project Name**: spider-web
- **Description**: 开源项目(https://gitee.com/ssssssss-team/spider-flow),以此为基板进行改造,如有违反规定,请作者及时与我联系,删除内容。微信:comcomhsg
- **Primary Language**: Java
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 3
- **Forks**: 0
- **Created**: 2023-08-07
- **Last Updated**: 2023-11-08
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
[介绍](#介绍) | [特性](#特性) | [插件](#插件) | DEMO站点 | 文档 | 更新日志 | [截图](#项目部分截图) | [其它开源](#其它开源项目) | [免责声明](#免责声明)
## 介绍
平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台
## 特性
- [x] 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
- [x] 支持JSON/XML/二进制格式
- [x] 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
- [x] 支持爬取JS动态渲染(或ajax)的页面
- [x] 支持代理
- [x] 支持自动保存至数据库/文件
- [x] 常用字符串、日期、文件、加解密等函数
- [x] 支持插件扩展(自定义执行器,自定义方法)
- [x] 任务监控,任务日志
- [x] 支持HTTP接口
- [x] 支持Cookie自动管理
- [x] 支持自定义函数
## 插件
- 项目中集成插件
- [spider-web-mailbox](spider-web-mailbox) 用于邮件发送
- [spider-web-ocr](spider-web-ocr) 用户图片识别
- [spider-web-redis](spider-web-redis) 用于缓存
- [spider-web-selenium](spider-web-selenium) 用于浏览器使用
- 以下是还未集成到项目中的代码,有需要的可以自行进行集成
- [x] [OSS插件](https://gitee.com/ssssssss-team/spider-flow-oss)
- [x] [Mongodb插件](https://gitee.com/ssssssss-team/spider-flow-mongodb)
- [x] [IP代理池插件](https://gitee.com/ssssssss-team/spider-flow-proxypool)
## 项目部分截图
### 爬虫列表

### 爬虫测试

### Debug

### 日志

## 业务范围
- 可以代写个人及公司业务爬虫需要,按需求给定数据。
## 免责声明
请勿将`spider-web`应用到任何可能会违反法律规定和道德约束的工作中,请友善使用`spider-web`,遵守蜘蛛协议,不要将`spider-web`用于任何非法用途。如您选择使用`spider-web`即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。