本篇文章测试的哈工大 LTP 、中科院计算所 NLPIR 、清华大学 THULAC 和 jieba 、 FoolNLTK 、 HanLP 这六大中文分词工具是由水 ... 琥珀完成的。相关测试的文章之前也看到过一些，但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友！

安装调用

jieba “结巴”中文分词：做最好的 Python 中文分词组件

THULAC 清华大学：一个高效的中文词法分析工具包

FoolNLTK 可能不是最快的开源中文分词，但很可能是最准的开源中文分词

教程： FoolNLTK 及 HanLP 使用

HanLP 最高分词速度 2,000 万字 / 秒

** 中科院 Ictclas 分词系统 - NLPIR 汉语分词系统

哈工大 LTP

LTP 安装教程 [python 哈工大 NTP 分词安装 pyltp 及配置模型（新） ]

如下是测试代码及结果

下面测试的文本上是极易分词错误的文本，分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下，分词器的宣传语是否得当吧。

jieba 中文分词

thulac 中文分词

fool 中文分词

HanLP 中文分词

中科院分词 nlpir

哈工大 ltp 分词

以上可以看出分词的时间，为了方便比较进行如下操作：

分词效果对比

结果为：

总结：

1. 时间上（不包括加载包的时间），对于相同的文本测试两次，四个分词器时间分别为：

jieba: 0.01699233055114746 1.8318662643432617

thulac ： 10.118737936019897 8.155954599380493

fool ： 2.227612018585205 2.892209053039551

HanLP ： 3.6987085342407227 1.443108320236206

中科院 nlpir ： 0.002994060516357422

哈工大 ltp_ ： 0.09294390678405762

可以看出平均耗时最短的是中科院 nlpir 分词，最长的是 thulac ，时间的差异还是比较大的。

2. 分词准确率上，通过分词效果操作可以看出

第一句：结婚的和尚未结婚的确实在干扰分词啊

四个分词器都表现良好，唯一不同的是 fool 将“干扰分词”合为一个词

第二句：汽水不如果汁好喝，重点在 “不如果”，“”不如“” 和“”如果“” 在中文中都可以成词，但是在这个句子里是不如与果汁正确分词

jieba thulac fool HanLP

jieba 、 fool 、 HanLP 正确 thulac 错误

第三句：小白痴痴地在门前等小黑回来，体现在人名的合理分词上

正确是：

小白 / 痴痴地 / 在 / 门前 / 等 / 小黑 / 回来

jieba 、 fool 、 HanLP 正确， thulac 在两处分词错误：小白 _np 痴痴 _a 地 _u 在 _p 门前 _s 等 _u 小 _a 黑回 _n 来 _f

第四句：是有关司法领域文本分词

发现 HanLP 的分词粒度比较大， fool 分词粒度较小，导致 fool 分词在上有较大的误差。在人名识别上没有太大的差异，在组织机构名上分词，分词的颗粒度有一些差异， Hanlp 在机构名的分词上略胜一筹。

六种分词器使用建议：

对命名实体识别要求较高的可以选择 HanLP ，根据说明其训练的语料比较多，载入了很多实体库，通过测试在实体边界的识别上有一定的优势。

中科院的分词，是学术界比较权威的，对比来看哈工大的分词器也具有比较高的优势。同时这两款分词器的安装虽然不难，但比较 jieba 的安装显得繁琐一点，代码迁移性会相对弱一点。哈工大分词器 pyltp 安装配置模型教程

结巴因为其安装简单，有三种模式和其他功能，支持语言广泛，流行度比较高，且在操作文件上有比较好的方法好用 python -m jieba news.txt > cut_result.txt

对于分词器的其他功能就可以在文章开头的链接查看，比如说哈工大的 pyltp 在命名实体识别方面，可以输出标注的词向量，是非常方便基础研究的命名实体的标注工作。

精简文本效果对比