# htmlp **Repository Path**: scrapy4j/htmlp ## Basic Information - **Project Name**: htmlp - **Description**: Html 页面内容中属性的自动解析工具,自动提取文章标题、正文、作者、发布时间、来源、原始来源 - **Primary Language**: Java - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 90 - **Forks**: 22 - **Created**: 2018-01-11 - **Last Updated**: 2025-06-09 ## Categories & Tags **Categories**: utils **Tags**: None ## README # htmlp ## 概述 Html 页面内容中属性的自动解析工具,自动提取文章标题、正文、作者、发布时间、来源、原始来源 ## 使用 ``` // 提取正文 String txt = HtmLP.getContent(html).getTxt(); // 正文不带标签 String content = HtmLP.getContent(html).getContent(); // 正文带标签 // 提取标题 String title = HtmLP.getTitle(html, metaTitle); // 提取作者 String author = HtmLP.getAuthor(txt); // 提取时间 String time = HtmLP.getTime(html); ``` ## 原理 ### 正文提取 基于行块统计的正文提取,认为:当页面中内容过滤掉 html 标签后,剩余的内容逐行统计字数,指定行数后的数量当大于阈值时,则认为是正文的开始,当再次小于指定阈值时,认为正文已结束 ### 标题提取 取正文中与 title 标签内容最相似的内容为标题 ### 属性提取(作者、时间、来源) 基于正则的数据提取,同时来源认为有两种,一种是设定当前网站为文章来源,一种是当前网站会转发来自其它媒体的文章,此时其它媒体则做为一种来源,根据实际需求自行选择提取方法