# HtmlSucker **Repository Path**: JNET/HtmlSucker ## Basic Information - **Project Name**: HtmlSucker - **Description**: 该项目用来从一个 HTML 中提取文章信息,包括标题、正文、作者、发布日期等等 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 73 - **Created**: 2018-01-30 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## HtmlSucker ## HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 [jsoup](https://www.oschina.net/p/jsoup) 库进行 HTML 解析。 HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。 目前还处于非常简单的阶段,但是可用。 本项目部分代码参考 [Crux](https://www.oschina.net/p/crux-web) 项目,例如 HeuristicString 类。 Maven: ``` net.oschina.htmlsucker HtmlSucker 0.0.1 ``` 示例代码: ``` public static void main(String[] args) throws IOException { String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released"; System.out.println(HtmlSucker.parse(url, 20000)); } ``` 运行结果: ``` title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区 keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口 description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1,挂买单接口 2,挂卖单接口 3,撮合接口 4,撮合结果查询接口 详见:https://my.oschina.net/jeffreyning/blog/1612810... author: date:null image:https://www.oschina.net/img/logo_s2.png content:

阿里云高性能云服务器,2折起! >>> >>>  

撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法

1,挂买单接口

2,挂卖单接口

3,撮合接口

4,撮合结果查询接口

详见:https://my.oschina.net/jeffreyning/blog/1612810

``` 本工具包采用 WTFPL 许可,爱怎么用怎么用!