扫一扫分享
中分词就是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程。由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词。
本工具分词速度达到每秒钟大约200万字左右,准确率能达到96%以上,可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。
输入字符串点击分词按钮,即可转换成带有“,”分隔符的词组。工具基于词性进行联想识别。
源于:https://github.com/leizongmin/node-segment
其他常见的分词工具有 Jieba, SnowNLP, LTP, HanNLP,下面简单介绍各种工具的情况:
(1)Jieba:Jieba 分词是目前最好用的 Python 中文分词组件,支持精确模式、全模式和搜索引擎模式,支持繁体分词和自定义词典。Jieba 其实就是通过词典分词,然后对不在词典的词使用 HMM 算法识别新词。
基于词典分词,基于有向无环图的查找算法,通过动态规划,从后至前使得词的切割组合联合概率最大。然后 Jieba 使用 HMM 进行二次分词,即新词的识别。
(2)SnowNLP:SnowNLP 是一个 Python 写的类库,可以方便处理中文文本内容,除了分词,SnowNLP 还可以进行词性标注、情感分析、文本分类等任务。
(3)LTP:LTP 是哈工大开源的一套中文语言处理系统,涵盖了分词、词性标注、命名实体识别等功能,基于结构化感知器,以最大熵准则建模标注序列 Y 在输入序列 X 的情况下的 score 函数。
(4)HanNLP:HanNLP 是一款多语言分词器,采用 CRF 模型分词、索引分词、N-最短路径分词。
手机预览