Elasticsearch 是一个分布式的搜索和分析引擎,广泛应用于日志分析、全文搜索、实时数据分析等场景。它以其高性能、高可用性和易用性而著称。本文档将引导您完成一个基本的 Elasticsearch 集群配置,包括节点间的通信、客户端访问、安全设置等关键步骤。我们将通过三个节点(node1、node2、node3)来搭建一个高可用的 Elasticsearch 集群,以确保您的数据能够在多个节点之间高效地存储和检索。
中文文档:Elastic — 搜索 AI 公司 | Elastic
英文文档:Documentation
1. 准备工作
2. 【node1、2、3】创建工作目录
以部署到 /export/server 目录为例:
mkdir -p /export/server
3. 【node1、2、3】开放必要端口
确保以下端口在防火墙中开放:
- 9200:HTTP REST API 端口,用于与 Elasticsearch 集群进行交互。
- 9300:节点间通信端口,用于 Elasticsearch 节点之间的内部通信。
- 5601(可选):Kibana 端口,用于访问 Kibana 界面。
sudo firewall-cmd --zone=public --add-port=9200/tcp --permanent
sudo firewall-cmd --zone=public --add-port=9300/tcp --permanent
sudo firewall-cmd --zone=public --add-port=5601/tcp --permanent
sudo firewall-cmd --reload
2. 下载和安装 Elasticsearch
1. 下载 Elasticsearch
方式一:在线下载
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.26-linux-x86_64.tar.gz
方式二:浏览器下载
选择所需的版本,点击下载:
点击 LINUX X86_64,下载 tar.gz 文件,上传到虚拟机。
2. 【node1】解压 Elasticsearch,并创建数据目录
tar -zxvf elasticsearch-7.17.26-linux-x86_64.tar.gz
mv elasticsearch-7.17.26 /export/server/elasticsearch
mkdir -p /export/server/elasticsearch/data
3. 配置 Elasticsearch
1. 【node1】配置 elasticsearch.yml :
sudo vi /export/server/elasticsearch/config/elasticsearch.yml
i 编辑文件,在文件中追加一下内容:
cluster.name: es-cluster
node.name: node-1
node.master: true
node.data: true
path.data: /export/server/elasticsearch/data
path.logs: /export/server/elasticsearch/logs
network.host: 0.0.0.0
discovery.seed_hosts: ["node2", "node3"]
network.tcp.keep_alive: true
network.tcp.no_delay: true
action.destructive_requires_name: true
gateway.recover_after_nodes: 2
cluster.initial_master_nodes: ["node-1", "node-2", "node-3"]
http.port: 9200
cluster.routing.allocation.cluster_concurrent_rebalance: 16
cluster.routing.allocation.node_concurrent_recoveries: 16
cluster.routing.allocation.node_initial_primaries_recoveries: 16
ESC 退出编辑,:wq 保存并退出。
配置说明:
- cluster.name:集群名称。同一个集群的所有节点必须使用相同的集群名称。
- node.name:节点名称。同一个集群内的每个节点名称必须唯一。
- node.master:是否可以被选举为主节点。设置为 true 表示该节点有资格成为主节点。
- node.data:该节点是否可以存储数据。设置为 true 表示该节点可以存储数据。
- node.roles:是否有主节点资格;master使其有资格被选为控制集群的主节点;data此节点同时为数据节点,7.x版本以后支持,同node.master + node.data。配置示例:node.roles: [master,data]
- path.data:数据目录的位置。Elasticsearch 将在此目录下存储索引数据。
- path.logs:日志目录的位置。Elasticsearch 将在此目录下存储日志文件。
- network.host:设置节点绑定的 IP 地址或主机名。默认情况下,Elasticsearch 只允许本机访问。设置为 0.0.0.0 表示允许任何 IP 地址访问。
- discovery.seed_hosts:发现其他节点的初始列表。这里填写其他节点的 IP 地址或主机名,不包括当前节点。
- network.tcp.keep_alive:是否启用 TCP 保活机制。设置为 true 可以防止长时间空闲的连接被关闭。
- network.tcp.no_delay:是否禁用 Nagle 算法。设置为 true 可以减少延迟,提高响应速度。
- action.destructive_requires_name:控制是否需要在执行破坏性操作时明确指定索引名称。破坏性操作包括删除索引、清空索引等。启用此配置可以增加安全性,防止误操作导致数据丢失。
- gateway.recover_after_nodes:在集群恢复过程中,至少需要多少个节点在线后才开始恢复索引。通常,这个值应该小于或等于集群中的总节点数。
- cluster.initial_master_nodes:用于指定在集群启动时哪些节点可以作为初始主节点候选。填写全部节点名称。
- http.port:HTTP REST API 端口。默认端口为 9200。
- cluster.routing.allocation.cluster_concurrent_rebalance:集群内同时启动的数据任务个数。默认是 2 个。
- cluster.routing.allocation.node_concurrent_recoveries:添加或删除节点及负载均衡时并发恢复线程个数。默认是 4 个。
- cluster.routing.allocation.node_initial_primaries_recoveries:初始化数据恢复时,并发恢复线程的个数。默认是 4 个。
2. 【node1】配置 JVM 选项
sudo vi /export/server/elasticsearch/config/jvm.options
G 跳转到文件尾行,$ 跳转到当前行末尾,i 编辑文件。在文件末尾新建一行添加:
-Xms4g
-Xmx4g
ESC 退出编辑,:wq 保存并退出。
3. 【node1】将 elasticsearch 录递归复制到 node2、node3 主机的 /export/server/ 目录下
cd /export/server
scp -r elasticsearch node2:`pwd`/
scp -r elasticsearch node3:`pwd`/
4. 【node2】修改 node2 的 elasticsearch.yml
sudo vi /export/server/elasticsearch/config/elasticsearch.yml
i 编辑文件,文件内容修改为:
cluster.name: es-cluster
node.name: node-2
node.master: true
node.data: true
path.data: /export/server/elasticsearch/data
path.logs: /export/server/elasticsearch/logs
network.host: 0.0.0.0
discovery.seed_hosts: ["node1", "node3"]
network.tcp.keep_alive: true
network.tcp.no_delay: true
action.destructive_requires_name: true
gateway.recover_after_nodes: 2
cluster.initial_master_nodes: ["node-1", "node-2", "node-3"]
http.port: 9200
cluster.routing.allocation.cluster_concurrent_rebalance: 16
cluster.routing.allocation.node_concurrent_recoveries: 16
cluster.routing.allocation.node_initial_primaries_recoveries: 16
ESC 退出编辑,:wq 保存并退出。
5. 【node3】修改 node3 的 elasticsearch.yml
sudo vi /export/server/elasticsearch/config/elasticsearch.yml
i 编辑文件,文件内容修改为:
cluster.name: es-cluster
node.name: node-3
node.master: true
node.data: true
path.data: /export/server/elasticsearch/data
path.logs: /export/server/elasticsearch/logs
network.host: 0.0.0.0
discovery.seed_hosts: ["node1", "node2"]
network.tcp.keep_alive: true
network.tcp.no_delay: true
action.destructive_requires_name: true
gateway.recover_after_nodes: 2
cluster.initial_master_nodes: ["node-1", "node-2", "node-3"]
http.port: 9200
cluster.routing.allocation.cluster_concurrent_rebalance: 16
cluster.routing.allocation.node_concurrent_recoveries: 16
cluster.routing.allocation.node_initial_primaries_recoveries: 16
ESC 退出编辑,:wq 保存并退出。
4. 【node1、2、3】系统配置
1. 创建 Elasticsearch 用户
groupadd es
useradd es -g es
cd /export/server
sudo chown es:es -R elasticsearch/
查看赋权情况:
ll
2. 设置系统资源限制
sudo vi /etc/security/limits.conf
G 跳转到文件尾行,$ 跳转到当前行末尾,i 编辑文件。在文件末尾新建一行添加:
* soft nofile 65536
* hard nofile 65536
ESC 退出编辑,:wq 保存并退出。
3. 设置虚拟内存限制
sudo vi /etc/sysctl.conf
G 跳转到文件尾行,$ 跳转到当前行末尾,i 编辑文件。在文件末尾新建一行添加:
vm.max_map_count=262145
ESC 退出编辑,:wq 保存并退出。加载并应用 /etc/sysctl.conf 文件中的系统参数设置:
sysctl -p
4. 设置环境变量
sudo vi /etc/profile
G 跳转到文件尾行,$ 跳转到当前行末尾,i 编辑文件。在文件末尾新建一行添加:
export ES_JAVA_HOME=/export/server/elasticsearch/jdk
export PATH=$ES_JAVA_HOME/bin:$PATH
注意:
如果同时配置过 JAVA_HOME 和 ES_JAVA_HOME ,PATH 会优先使用先配置的环境变量,即 java -version 的版本为先配置的 PATH,如想优先使用 JAVA_HOME,则需要将
export PATH=$ES_JAVA_HOME/bin:$PATH export PATH=$JAVA_HOME/bin:$PATH
合并为:
export PATH=$JAVA_HOME/bin:$ES_JAVA_HOME/bin:$PATH
ESC 退出编辑,:wq 保存并退出。重新加载 /etc/profile 文件中的环境变量设置,使新的设置立即生效:
source /etc/profile
5. 创建 Systemd 服务(可选)
vi /etc/systemd/system/elasticsearch.service
i 编辑文件,文件内容为:
[Unit]
Description=Elasticsearch
After=network.target
[Service]
User=es
Group=es
Environment="ES_JAVA_OPTS=-Xms512m -Xmx512m"
Environment="ES_JAVA_HOME=/export/server/elasticsearch/jdk"
Environment="JAVA_HOME=/export/server/jdk"
ExecStart=/export/server/elasticsearch/bin/elasticsearch
ExecReload=/bin/kill -HUP $MAINPID
ExecStop=/bin/kill -SIGINT $MAINPID
Restart=on-failure
LimitMEMLOCK=infinity
LimitNOFILE=65536
[Install]
WantedBy=multi-user.target
5. 【node1、2、3】启动 Elasticsearch
5.1 方式一:手动启动
su es
cd /export/server/elasticsearch/bin
./elasticsearch -d
5.2 方式二:使用 Systemd 服务
# 启动elasticsearch
systemctl start elasticsearch
# 查看elasticsearch状态
systemctl status elasticsearch
# 设置开机自启动
systemctl enable elasticsearch
Systemd 服务其他命令:
# 重启elasticsearch systemctl restart elasticsearch # 停止elasticsearch服务 systemctl stop elasticsearch
6. 查看服务状态
1. 查看启动是否成功
项目启动大约需要2-4 分钟时间,要确保项目完全启动后再执行,否则会出现拒绝访问:
curl http://内网ip:9200
2. 检查 Elasticsearch 集群的健康状态
curl -X GET "内网ip:9200/_cat/health?v"
说明:
status: 集群状态,常见的状态有:
- green: 所有主分片和副本分片都可用。
- yellow: 所有主分片可用,但某些副本分片不可用。
- red: 一些主分片不可用。
3. 分析 Elasticsearch 集群的状态和各个节点的信息
curl -X GET "http://内网ip:9200/_cat/nodes?v"
说明:
- ip: 节点的 IP 地址。
- heap.percent: 堆内存使用百分比。
- ram.percent: 物理内存使用百分比。
- cpu: CPU 使用率。
- load_1m: 最近 1 分钟的系统负载平均值。
- load_5m: 最近 5 分钟的系统负载平均值。
- load_15m: 最近 15 分钟的系统负载平均值。
- node.role: 节点的角色,常见的角色包括:
- c: 集群管理节点。
- d: 数据节点。
- f: 冻结节点。
- h: 主节点。
- i: 协调节点。
- l: 日志节点。
- m: 主节点。
- r: 远程集群客户端节点。
- s: 存储节点。
- t: 传输节点。
- w: 写节点。
- master: 是否为主节点,* 表示是主节点,- 表示不是主节点。
- name: 节点名称。
到此为止,无安全配置的 Elasticsearch 集群配置完成。
7. 安全配置
7.1 生成证书
1. 【node1】生成 CA 证书
cd /export/server/elasticsearch/bin
./elasticsearch-certutil ca
- 输入 CA 证书文件名。接受默认文件名 elastic-stack-ca.p12,亦可换成其他文件名;
- 设置 CA 密钥库的密码。
2. 【node1】生成节点证书
./elasticsearch-certutil cert --ca /export/server/elasticsearch/elastic-stack-ca.p12
- 输入CA 密钥库的密码。输入上一步的CA 密钥库的密码;
- 输入节点证书文件名。接受默认文件名 elastic-certificates.p12 ,亦可输入文件名修改;
- 最后提示输入节点证书密钥库密码。可以直接回车,跳过输入密码。
3. 【node1】移动和赋权证书
cd /export/server/elasticsearch
mv elastic-certificates.p12 config/
mv elastic-stack-ca.p12 config/
cd config/
scp -r elastic-certificates.p12 node2:`pwd`/
scp -r elastic-stack-ca.p12 node2:`pwd`/
scp -r elastic-certificates.p12 node3:`pwd`/
scp -r elastic-stack-ca.p12 node3:`pwd`/
4. 【node1、2、3】配置安全设置
cd /export/server/elasticsearch/config/
sudo chown es:es -R ./*
sudo vi elasticsearch.yml
G 跳转到文件尾行,$ 跳转到当前行末尾,i 编辑文件。在文件末尾新建一行添加:
xpack.security.enabled: true
xpack.security.transport.ssl.enabled: true
xpack.security.transport.ssl.verification_mode: certificate
xpack.security.transport.ssl.keystore.path: /export/server/elasticsearch/config/elastic-certificates.p12
xpack.security.transport.ssl.truststore.path: /export/server/elasticsearch/config/elastic-certificates.p12
ESC 退出编辑,:wq 保存并退出。
5. 【node1、2、3】重启 Elasticsearch
- 如果是手动启动的,则按以下方法重启:
# 查看进程
ps -ef | grep elasticsearch
# 强制停止进程
kill -9 对应进程
# 启动Elasticsearch
# 如果是root用户下,需要su es切换用户,es用户下无需切换
su es
cd /export/server/elasticsearch/bin
./elasticsearch -d
- 如果使用 Systemd 服务,则按以下方法重启:
# 重启Elasticsearch,elasticsearch.service可写为elasticsearch
systemctl restart elasticsearch.service
7.2 【node1】设置用户密码
1. 交互式设置密码
cd /export/server/elasticsearch/bin
./elasticsearch-setup-passwords interactive
- 请确认您是否要继续:y
- 为 elastic 用户(超级用户,具有所有权限)输入密码;
- 为 elastic 用户(超级用户,具有所有权限)确认密码;
- 为 apm_system 用户(APM 服务器使用的用户)输入密码;
- 为 apm_system 用户(APM 服务器使用的用户)确认密码;
- 为 kibana 用户(Kibana 服务器使用的用户)输入密码;
- 为 kibana 用户(Kibana 服务器使用的用户)确认密码;
- 为 logstash_system 用户(Logstash 服务器使用的用户)输入密码;
- 为 logstash_system 用户(Logstash 服务器使用的用户)确认密码;
- 为 beats_system 用户(Filebeat 和其他 Beats 采集器使用的用户)输入密码;
- 为 beats_system 用户(Filebeat 和其他 Beats 采集器使用的用户)确认密码;
- 为 remote_monitoring_user 用户(用于远程监控的用户)输入密码;
- 为 remote_monitoring_user 用户(用于远程监控的用户)确认密码。
2. 测试连接
- 虚拟机访问测试:
curl -u elastic:elastic用户密码 http://内网ip:9200
- 浏览器访问测试:
访问 http://外网ip:9200/ ,访问结果如下图:
8. 安装 IK 分词器
注意:
安装 IK 分词器可以不配置证书和密码。
1. 【node1】下载 IK 分词器
源码地址:GitHub - infinilabs/analysis-ik at Latest
注意:
下载 IK 分词器选择的版本一定要和 Elasticsearch 版本一致
方式一:在线下载 zip 包
wget https://release.infinilabs.com/analysis-ik/stable/elasticsearch-analysis-ik-7.17.26.zip
方式二:离线下载
Index of: analysis-ik/stable/https://release.infinilabs.com/analysis-ik/stable/方式三:在线下载插件
/export/server/elasticsearch/bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/7.17.26
2. 【node1】解压并移动插件
# 如果是zip包则需要解压,也可以本地解压好再上传
unzip elasticsearch-analysis-ik-7.17.26.zip
# 移动并重命名
mv elasticsearch-analysis-ik-7.17.26 /export/server/elasticsearch/plugins/ik
3. 【node1】配置 IK 分词器
进入插件目录并编辑配置文件 IKAnalyzer.cfg.xml,可以根据需要配置扩展字典和扩展停止词字典:
cd /export/server/elasticsearch/plugins/ik
sudo vi config/IKAnalyzer.cfg.xml
i 编辑文件,修改后文件内容示例为:
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopwords.dic</entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
ESC 退出编辑,:wq 保存并退出。
1. 标签说明:
- <entry key="ext_dict">ext.dic</entry>
- 作用: 指定 IK 分词器使用的扩展字典文件路径。
- 说明: 在 ext.dic 文件中,你可以添加自定义的词汇,这些词汇会被 IK 分词器识别为单独的词。每行一个词。ext.dic 可以换成其他文件名。
- <entry key="ext_stopwords">stopword.dic</entry>
- 作用: 指定 IK 分词器使用的扩展停止词字典文件路径。
- 说明: 在 stopword.dic 文件中,你可以添加自定义的停止词,这些词在分词过程中会被过滤掉。每行一个词。stopword.dic 可以换成其他文件名。
- <entry key="remote_ext_dict">words_location</entry>
- 作用: 指定远程扩展字典的 URL 地址。
- 说明: 如果你有一个远程服务器托管的字典文件,可以配置此选项。IK 分词器会定期从指定的 URL 下载字典文件并更新本地字典。
- <entry key="remote_ext_stopwords">words_location</entry>
- 作用: 指定远程扩展停止词字典的 URL 地址。
- 说明: 类似于远程扩展字典,用于配置远程的停止词字典文件。
2. IK 分词器默认词典说明:
文件名
作用
内容
extra_main.dic
额外的主要字典文件,通常包含大量常用词汇
每行一个词汇,用于扩展分词器的词汇库
extra_single_word.dic
额外的单字词典文件,包含单字词汇
每行一个单字词汇
extra_single_word_full.dic
额外的单字词典文件(完整版),包含更多的单字词汇
每行一个单字词汇
extra_single_word_low_freq.dic
额外的低频单字词典文件,包含低频出现的单字词汇
每行一个低频单字词汇
extra_stopword.dic
额外的停止词词典文件,用于添加自定义停止词
每行一个停止词
main.dic
主字典文件,包含基本的常用词汇
每行一个词汇,用于分词器的基本词汇库
preposition.dic
介词词典文件,包含介词词汇
每行一个介词词汇
quantifier.dic
量词词典文件,包含量词词汇
每行一个量词词汇
stopword.dic
停止词词典文件,包含常用的停止词
每行一个停止词
suffix.dic
后缀词典文件,包含常见的后缀词汇
每行一个后缀词汇
surname.dic
姓氏词典文件,包含常见的姓氏词汇
每行一个姓氏词汇
创建扩展字典和扩展停止词字典文件:
touch /export/server/elasticsearch/plugins/ik/config/ext.dic
touch /export/server/elasticsearch/plugins/ik/config/stopwords.dic
说明:
- 扩展字典和扩展停止词字典文件字符集必须是 UTF-8 ,否则不会生效;
- 可以配置多个扩展字典和扩展停止词字典,用英文分号分隔;
- 扩展字典和扩展停止词字典文件一行代表一个组词;
- 在使用 IK 分词器时,如果你对扩展字典或扩展停止词字典进行了修改,通常情况下不需要重启 Elasticsearch。IK 分词器会定期自动加载这些字典文件的更新内容。如果想立即生效,可以重启 Elasticsearch。
4. 【node1】同步插件到其他节点
cd /export/server/elasticsearch/plugins
scp -r ik node2:`pwd`/
scp -r ik node3:`pwd`/
5. 【node1、2、3】修改插件目录权限
chown -R es:es /export/server/elasticsearch/plugins
6. 【node1、2、3】重启
- 如果是手动启动的,则按以下方法重启:
# 查看进程
ps -ef | grep elasticsearch
# 强制停止进程
kill -9 对应进程
# 启动Elasticsearch
# 如果是root用户下,需要su es切换用户,es用户下无需切换
su es
cd /export/server/elasticsearch/bin
./elasticsearch -d
- 如果使用 Systemd 服务,则按以下方法重启:
# 重启Elasticsearch,elasticsearch.service可写为elasticsearch
systemctl restart elasticsearch.service
7. 访问测试
curl -u elastic:elastic-pwd123 -X POST "node1:9200/_analyze?pretty" -H 'Content-Type: application/json' -d'
{
"analyzer": "ik_smart",
"text": "加油,小明同学"
}
'
IK 分词器的分词规则:
IK分词插件的分词器的分词规则包括ik_smart和ik_max_word两种:
- ik_max_word:将文本按照最细粒度进行拆分,适合术语查询。例如会将计算机汉字输入方法拆分为计算机,计算,算机,汉字输入,汉字,输入,方法。
- ik_smart:将文本按照粗粒度进行拆分,适合短语查询。例如会将计算机汉字输入方法拆分为计算机,汉字输入,方法。