# TinySeg **Repository Path**: tinyframework/TinySeg ## Basic Information - **Project Name**: TinySeg - **Description**: No description available - **Primary Language**: Java - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 6 - **Forks**: 10 - **Created**: 2014-07-14 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README [![Maven Central](https://maven-badges.herokuapp.com/maven-central/org.tinygroup/TinySeg/badge.svg)](https://maven-badges.herokuapp.com/maven-central/org.tinygroup/TinySeg) ## TinySeg的项目说明 本工程的重点是全文检索和中文分词,并提供相关的接口与具体实现工程,当然用户也可以根据接口自行扩展不同的底层实现方案。
## 附录: ├── org.tinygroup.fulltext工程。全文检索的接口工程,定义了FullText基本操作接口,同时提供了HighlightDocument、FullTextHelper等辅助工具类。 ├── org.tinygroup.fulltextweb工程。web演示工程,展示了全文检索的搜索界面,结果支持分页和高亮。底层采用lucene4.7.2作为具体实现,并使用indexinstaller安装索引。 ├── org.tinygroup.indexinstaller工程。索引安装工程,全文检索的辅助工程,可以通过配置方式从不同数据来源安装索引,目前支持文件目录和数据库两种方式。 ├── org.tinygroup.lucene工程。早期的全文检索,采用lucene4.7实现,目前不推荐使用,建议用org.tinygroup.fulltext工程取代。 ├── org.tinygroup.lucene472工程。全文检索的实现工程,采用lucene4.7.2实现org.tinygroup.fulltext工程。 ├── org.tinygroup.mmseg4j工程。lucene的中文分词扩展工程,底层采用mmseg4j做实现。 ├── org.tinygroup.chineseanalyzer工程。lucene的中文分词扩展工程,底层采用tinyseg做实现。 ├── org.tinygroup.pdfindexsource工程。全文检索扩展工程,支持pdf类型文件做索引来源,可以读取带密码的pdf文件。 ├── org.tinygroup.officeindexsource工程。全文检索扩展工程,支持excel和word类型文件做索引来源。 ├── org.tinygroup.tinyseg工程。Tiny自己实现的中文分词解决方案,提供中文分词、拼音等接口,支持用户扩展词库。 │