# sphinx-jieba **Repository Path**: strwei/sphinx-jieba ## Basic Information - **Project Name**: sphinx-jieba - **Description**: sphinx结合结巴分词,在 https://github.com/frankee/sphinx-jieba 基础上解决了安装出错问题 - **Primary Language**: C++ - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 8 - **Forks**: 10 - **Created**: 2017-08-09 - **Last Updated**: 2023-01-27 ## Categories & Tags **Categories**: segment **Tags**: None ## README # sphinx-jieba Sphinx for Chinese with cppJieba 仿照[Sphinx for Chinese](https://github.com/eric1688/sphinx.git),基于sphinx 2.2.9版本,结合cppJieba分词系统,让sphinx支持中文。 ## 安装 ### 解压 ``` $ git clone https://github.com/c4ys/sphinx-jieba $ cd sphinx-jieba $ git submodule update --init --recursive ``` ### 编译(假设安装到/usr/local/sphinx目录,下文同) ``` $ sudo apt install gcc cmake automake $ sudo apt install libmysqld-dev $ ./configure --prefix=/usr/local/sphinx-jieba --prefix 指定安装路径 --with-mysql 编译mysql支持 --with-pgsql 编译pgsql支持 $ make $ make install ``` ## 配置中文支持 ### 修改sphinx.conf索引配置文件 在索引配置项中添加以下两项: ``` charset_type = utf-8 chinese_dictionary = /usr/local/sphinx/etc/xdict ``` **注意在source部分一定加上如下字段,否则中文分词无法起作用。** ``` sql_query_pre = SET NAMES utf8 ``` ## TODOs: 1. 在index时,添加同义词功能 a. 本身在Sphinx GetToken时可以返回多个同义Token b. 增加同义词典 2. 字典支持二进制形式 3. cmake make sure the expat and int64_t varible set.