# HtmlSucker
**Repository Path**: JNET/HtmlSucker
## Basic Information
- **Project Name**: HtmlSucker
- **Description**: 该项目用来从一个 HTML 中提取文章信息,包括标题、正文、作者、发布日期等等
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 73
- **Created**: 2018-01-30
- **Last Updated**: 2020-12-19
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
## HtmlSucker ##
HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、
封面图以及文章正文内容。基于 [jsoup](https://www.oschina.net/p/jsoup) 库进行 HTML 解析。
HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。
目前还处于非常简单的阶段,但是可用。
本项目部分代码参考 [Crux](https://www.oschina.net/p/crux-web) 项目,例如 HeuristicString 类。
Maven:
```
撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法
1,挂买单接口
2,挂卖单接口
3,撮合接口
4,撮合结果查询接口
``` 本工具包采用 WTFPL 许可,爱怎么用怎么用!