# htmlp
**Repository Path**: scrapy4j/htmlp
## Basic Information
- **Project Name**: htmlp
- **Description**: Html 页面内容中属性的自动解析工具,自动提取文章标题、正文、作者、发布时间、来源、原始来源
- **Primary Language**: Java
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 90
- **Forks**: 22
- **Created**: 2018-01-11
- **Last Updated**: 2025-06-09
## Categories & Tags
**Categories**: utils
**Tags**: None
## README
# htmlp
## 概述
Html 页面内容中属性的自动解析工具,自动提取文章标题、正文、作者、发布时间、来源、原始来源
## 使用
```
// 提取正文
String txt = HtmLP.getContent(html).getTxt(); // 正文不带标签
String content = HtmLP.getContent(html).getContent(); // 正文带标签
// 提取标题
String title = HtmLP.getTitle(html, metaTitle);
// 提取作者
String author = HtmLP.getAuthor(txt);
// 提取时间
String time = HtmLP.getTime(html);
```
## 原理
### 正文提取
基于行块统计的正文提取,认为:当页面中内容过滤掉 html 标签后,剩余的内容逐行统计字数,指定行数后的数量当大于阈值时,则认为是正文的开始,当再次小于指定阈值时,认为正文已结束
### 标题提取
取正文中与 title 标签内容最相似的内容为标题
### 属性提取(作者、时间、来源)
基于正则的数据提取,同时来源认为有两种,一种是设定当前网站为文章来源,一种是当前网站会转发来自其它媒体的文章,此时其它媒体则做为一种来源,根据实际需求自行选择提取方法