# JsoupXpath **Repository Path**: linuxsuren/JsoupXpath ## Basic Information - **Project Name**: JsoupXpath - **Description**: A html parser with xpath base on Jsoup.Maybe it is the best in java,ha ha.Just try it. - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-04-28 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README JsoupXpath ========== A html parser with xpath base on Jsoup.Maybe it is the best in java,Just try it. I will write more document later... ## 简介 ## **JsoupXpath** 是一款纯Java开发的使用xpath解析html的解析器，xpath语法分析与执行完全独立，html的DOM树生成借助Jsoup，故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器，故开发了JsoupXpath。JsoupXpath的实现逻辑清晰，扩展方便，支持几乎全部常用的xpath语法，如下面这些： ``` @RunWith(PowerMockRunner.class) @PowerMockRunnerDelegate(DataProviderRunner.class) public class JXDocumentTest { private JXDocument doubanTest; @Before public void before() throws Exception { if (doubanTest == null){ Document doc = Jsoup.connect("https://book.douban.com/subject_search?start=15&search_text=java&cat=1001").userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:29.0) Gecko/20100101 Firefox/29.0").get(); doubanTest = new JXDocument(doc); } } @Test @DataProvider(value = { "//a/@href", "//div[@class='paginator']/span[@class='next']/a/@href", "//ul[@class='subject-list']/li[position()<3]/div/h2/allText()", "//ul[@class='subject-list']/li[first()]/div/h2/allText()", "//ul[@class='subject-list']/li[./div/div/span[@class='pl']/num()>900]/div/h2/allText()", //查找评论大于1000的条目（当然只是为了演示复杂xpath了，谓语中可以各种嵌套，这样才能测试的更全面） "//ul[@class='subject-list']/li[self::li/div/div/span[@class='pl']/num()>900]/div/h2/allText()", //支持轴 "//*[@id='content']/div/div[1]/ul/li[14]/div[2]/h2/a/text()" //chrome拷贝 }) public void testXpath(String xpath) throws NoSuchFunctionException, XpathSyntaxErrorException, NoSuchAxisException { System.out.println("current xpath:"+xpath); List