基于单字位置最大概率的Python分词工具snailseg

[i=s] 本帖最后由 jieforest 于 2012-9-22 21:33 编辑

snailseg是一个使用Python编写的简单的中文分词库。

项目地址:https://github.com/fxsjy/snailseg
在线分词效果展示:https://snailsegdemo.appspot.com/(使用代理访问)

使用方法

将snailseg目录放置于当前目录或者site-packages目录
import snailseg
代码示例

CODE:

import snailseg  
words = snailseg.cut("南京市长江大桥")  
for w in words:  
    print w  算法

算法是统计单字在词语中出现位置的概率大小,选择最大可能的分词方案。算法很简单,只有100行纯Python代码。

性能

测试环境:Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt
速度:700 KB/Second
示例

在线分词效果展示:https://snailsegdemo.appspot.com/
测试用例:https://github.com/fxsjy/snailseg/blob/master/test.py

请使用浏览器的分享功能分享到微信等