关注我,持续分享逻辑思维&管理思维&面试题; 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;
推荐专栏《10天学会使用asp.net编程AI大模型》,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公众号、小程序,再到AI大模型网站。干货满满。学成后可接项目赚外快,绝对划算。不仅学会如何编程,还将学会如何将AI技术应用到实际问题中,为您的职业生涯增添一笔宝贵的财富。
-------------------------------------正文----------------------------------------
Elasticsearch支持的中文分词器主要包括以下几种:
-
IK Analyzer(IK分词器):
- IK Analyzer是一个开源的、针对中文文本的分词器插件,它集成了Lucene IK Analyzer,支持自定义词典。IK分词器提供了两种分词模式:
ik_max_word
和ik_smart
。ik_max_word
:这种分词器会尽可能地枚举出所有可能的关键词,分词比较细致,会分解出更多的关键词。ik_smart
:智能分词模式,倾向于做最粗粒度的分词,减少冗余。
- IK Analyzer插件的GitHub地址为:elasticsearch-analysis-ik。
- IK Analyzer是一个开源的、针对中文文本的分词器插件,它集成了Lucene IK Analyzer,支持自定义词典。IK分词器提供了两种分词模式:
-
Smart Chinese Analyzer:
- Elasticsearch内置了一种名为Smart Chinese Analyzer的中文分词器,它是一种智能化的中文分词器,但根据社区的反馈,IK分词器在中文分词领域更为流行和准确。
-
Pinyin Analyzer(拼音分词器):
- 拼音分词器是一种专为中文拼音搜索而设计的分词器。它可以将汉字转化为拼音,从而支持拼音搜索,适用于需要通过拼音进行检索的场景。
-
自定义分词器:
- Elasticsearch允许用户根据特殊需求自定义分词器,以满足特定的分词逻辑和需求。
在实际应用中,IK Analyzer因其强大的自定义能力和高准确率,成为Elasticsearch中文分词的首选。安装IK Analyzer插件后,可以通过简单的API调用来配置和使用IK分词器,从而改善中文搜索体验。
感兴趣的同学辛苦 关注/点赞 ,持续分享逻辑、算法、管理、技术、人工智能相关的文章。
有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自我介绍》, 《做好面试准备,迎接2024金三银四》。
或关注博主免费专栏【程序员宝典--常用代码分享】里面有大量面试涉及的算法或数据结构编程题。
博主其它经典原创:《管理心得--如何高效进行跨部门合作》,《技术心得--如何成为优秀的架构师》、《管理心得--如何成为优秀的架构师》、《管理心理--程序员如何选择职业赛道》,及
《C#实例:SQL如何添加数据》,《C#实战分享--爬虫的基础原理及实现》欢迎大家阅读。