# hog **Repository Path**: rxtech/hog ## Basic Information - **Project Name**: hog - **Description**: Hog是一款高效且强大的Java开源采集系统,主要用于互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 56 - **Created**: 2018-05-25 - **Last Updated**: 2022-06-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # [Hog](https://gitee.com/tqcto/hog) * [简介](#简介) * [功能](#功能) * [文档](#文档) * [技术](#技术) * [贡献](#贡献) * [协议](#开源协议) * [鸣谢](#鸣谢) ## 简介 > Hog 的英文全称为**hand of god** 英文含义为**上帝之手** Hog是一款高效且强大的**Java**开源采集系统,主要用于互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据。 ### 界面截图  ## 功能 Hog的每一个功能你应该都会用到。我们将市面上成熟且收费的采集软件大部分功能添加进来,只有这样才能提升Hog的竞争力。 * 可视化配置采集规则 * 自定义采集任务 * 多任务并行采集 * 采集规则导入/导出 * 定时采集 * 模拟登陆 * 动态cookies池 * 支持多种数据库进行内容落地 * 插件系统 * ocr验证码识别 * 动态IP代理池 如果有新版可用,升级过程也是非常简单的,只需要重新部署新版本就可以,不用运行额外的任何脚本。 ## 界面 正在开发 ## 文档 1. 直接使用 1. [开发者学习](https://gitee.com/tqcto/hog/wikis/02.%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%E4%B8%8B%E8%BF%90%E8%A1%8C) 2. 如何更新 4. 插件编写 5. 常见问题 6. [参与贡献](https://gitee.com/tqcto/hog/repository/stats/dev) 7. 捐赠我们 8. 更新日志 ## 技术 * 后端框架: Hog使用了轻量级 mvc 框架 Spring boot、Spring、Mybatis * 数据库: MySQL * 模板引擎: thymeleaf * 前端框架: 前端部分为了降低复杂度, 只依赖于 jQuery、EasyUI 等组件 另外,为了保证 Hog 的质量,我们也做了很多努力,包括: * 统一规范的编码风格 * 完善的 javadoc 注释 * 不断完善的测试用例、持续集成 ## 贡献 所有贡献者可以在[这里](https://gitee.com/tqcto/hog/repository/stats/dev)看到。 我们非常期待你加入到这个项目中,无论是使用反馈还是代码补丁,都是对 Hog 一份满满的爱 ### 开源协议 [Apache 2.0](LICENSE) ### 讨论区 * 来一发 [issue](https://gitee.com/tqcto/hog/issues/new) * 加入 Hog 开发支持 Q 群 154514123 ## 鸣谢 Hog 的诞生离不开以下开源项目: * [jQuery](https://github.com/jquery/jquery):使用最广泛的 JavaScript 工具库 * [Jquery EasyUI](http://www.jeasyui.net/):Jquery EasyUI * [thymeleaf](http://www.thymeleaf.org/):好用的 Java 模版引擎 * [IntelliJ IDEA](https://www.jetbrains.com/idea):全宇宙暂时排名第二的 IDE ----
Hog , 为采集而生