分词工具汇总
常见分词工具介绍:
-
jieba(结巴分词) 免费使用
-
HanLP(汉语言处理包) 免费使用
-
SnowNLP(中文的类库) 免费使用
-
FoolNLTK(中文处理工具包) 免费使用
-
Jiagu(甲骨NLP) 免费使用
-
pyltp(哈工大语言云) 商用需要付费
-
THULAC(清华中文词法分析工具包) 商用需要付费
-
NLPIR(汉语分词系统) 付费使用
-
HanLP(汉语言处理包) 免费使用
开源分词工具介绍:
结巴分词
1.原理
基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
2.使用
支持三种分词模式:
- 精确模式,试图将句子最精确地切开,适合文本分析;
- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词
###支持自定义词典
在分词的速度上,精确模式能达到 400KB/s,全模式下能达到 1.5MB/s
清华分词
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:
-
能力强。利用集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
-
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
-
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
哈工大LTP分词
语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口、可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
有自动分句功能
甲骨分词
Jiagu以BiLSTM等模型为基础,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。
基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。
FoolNLTK
使用 Bi-LSTM 训练而成,包含分词、词性标注、实体识别等功能,同时支持自定义词典,可以训练自己的模型,可以进行批量处理。
NLPIR
中科院计算所NLPIR 分词系统,前身为2000年发布的 ICTCLAS 词法分析系统。由北京理工大学张华平博士研发的中文分词系统,经过十余年的不断完善,拥有丰富的功能和强大的性能。NLPIR是一整套对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。主要功能包括:中文分词,词性标注,命名实体识别,用户词典、新词发现与关键词提取等功能。
Python 实现的版本,gitHub 链接
HanLP
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
求解的是最短路径。优点:开源、有人维护、可以解答。原始模型用的训练语料是人民日报的语料,当然如果你有足够的语料也可以自己训练
复旦分词fudanNLP
FudanNLP的后续版本,一个全新的自然语言处理工具FastNLP。 FudanNLP不再更新
SnowNLP 分词
SnowNLP 分词是基于 Character-Based Generative Model 来实现的,论文地址
分词效果不理想。
开源项目ansj_seg分词
这是一个基于n-Gram+CRF+HMM的中文分词的java实现
分词开源项目kcws
kcws github
项目模型字嵌入+Bi-LSTM+CRF