Elasticsearch

Elasticsearch 是一款开源的分布式搜索引擎，专为全文搜索、结构化数据搜索和分析而设计。它属于 NoSQL 数据库范畴，但其主要用途是搜索和分析大规模的文本和数据。Elasticsearch 具有高扩展性、实时搜索和分布式架构等特点，被广泛应用于日志分析、搜索引擎、推荐系统等场景。

以下是 Elasticsearch 从安装到开发的全流程总结，适用于 CentOS 7 服务器和本地开发环境。

一、Elasticsearch 概述

1. 特性：

全文搜索：能够在海量文档中进行快速的全文搜索。
分布式架构：内置分片和副本机制，可以轻松扩展到数千个节点。
实时分析：通过 Kibana、Logstash 等工具进行实时的数据分析。
多租户支持：可以处理多种类型的数据，并针对不同的数据类型进行索引和查询。

2. 典型使用场景：

日志分析：通过 Elasticsearch、Logstash 和 Kibana（即 ELK Stack）构建实时日志分析平台。
全文检索：在大型文档集内进行关键词搜索，如电子商务网站的产品搜索。
监控与报警：与 Beats 或其他数据采集工具结合，用于监控系统的各类指标数据并触发报警。

二、Elasticsearch 安装（CentOS 7）

1. 添加 Elasticsearch 仓库

首先，确保 CentOS 7 已经安装 wget，并添加 Elasticsearch 的 yum 源。

sudo yum install -y wget
sudo wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.10.0-x86_64.rpm
sudo rpm --install elasticsearch-7.10.0-x86_64.rpm

2. 配置 Elasticsearch

Elasticsearch 的配置文件位于 /etc/elasticsearch/elasticsearch.yml，你可以通过编辑该文件进行设置：

sudo vi /etc/elasticsearch/elasticsearch.yml

一些重要的配置项：

集群名称：定义集群的名字，如 cluster.name: my-cluster。
节点名称：配置节点的名称，如 node.name: node-1。
网络绑定：配置 Elasticsearch 可以监听的地址，如 network.host: 0.0.0.0 以允许外部访问。

3. 启动和设置自启

sudo systemctl start elasticsearch
sudo systemctl enable elasticsearch

4. 验证 Elasticsearch 运行状态

你可以通过 HTTP 请求验证 Elasticsearch 是否成功启动：

curl -X GET "localhost:9200/"

若一切正常，将返回 Elasticsearch 的基本信息，如版本号等。

三、Elasticsearch 核心概念

1. 索引（Index）

Elasticsearch 中的数据存储在索引（类似于关系型数据库中的数据库）中。
每个索引都有多个文档，并且每个文档都有一组字段，类似于关系型数据库的表和行。

2. 文档（Document）

文档是 Elasticsearch 中最基本的数据单位，每个文档可以理解为一条 JSON 格式的数据。

3. 分片与副本（Shard & Replica）

分片：数据被水平切分到多个分片中，使得 Elasticsearch 能够水平扩展。
副本：每个分片有多个副本，以确保数据的高可用性。

四、Elasticsearch 开发使用

1. 插入数据（Indexing）

可以通过 POST 请求将文档插入 Elasticsearch 索引。

curl -X POST "localhost:9200/my_index/_doc/1" -H 'Content-Type: application/json' -d'
{
  "name": "Alice",
  "age": 30,
  "city": "New York"
}'

该命令会在 my_index 索引中插入一条文档，ID 为 1。

2. 查询数据（Searching）

使用 GET 请求来查询数据。

简单查询：

curl -X GET "localhost:9200/my_index/_search?q=name:Alice"

复杂查询：
使用 POST 请求可以进行更复杂的查询，如多字段匹配：

curl -X POST "localhost:9200/my_index/_search" -H 'Content-Type: application/json' -d'
{
  "query": {
    "bool": {
      "must": [
        { "match": { "name": "Alice" } },
        { "range": { "age": { "gte": 25 } } }
      ]
    }
  }
}'

3. 更新数据（Updating）

使用 POST 请求可以更新已有文档中的数据。

curl -X POST "localhost:9200/my_index/_update/1" -H 'Content-Type: application/json' -d'
{
  "doc": {
    "age": 31
  }
}'

4. 删除数据（Deleting）

使用 DELETE 请求可以删除索引或文档。

删除文档：

curl -X DELETE "localhost:9200/my_index/_doc/1"

删除整个索引：

curl -X DELETE "localhost:9200/my_index"

五、Elasticsearch 高级操作

1. 索引映射（Index Mapping）

在 Elasticsearch 中，映射（mapping）定义了字段的数据类型以及如何处理这些字段。例如，可以将 age 字段设置为整数类型。

curl -X PUT "localhost:9200/my_index" -H 'Content-Type: application/json' -d'
{
  "mappings": {
    "properties": {
      "name": { "type": "text" },
      "age": { "type": "integer" },
      "city": { "type": "keyword" }
    }
  }
}'

2. 聚合查询（Aggregation）

Elasticsearch 强大的聚合功能允许对数据进行分组和统计。以下示例展示了按城市进行分组，并计算每个城市的用户数量。

curl -X POST "localhost:9200/my_index/_search" -H 'Content-Type: application/json' -d'
{
  "size": 0,
  "aggs": {
    "group_by_city": {
      "terms": { "field": "city.keyword" }
    }
  }
}'

3. 分片与集群管理

在生产环境中，Elasticsearch 通常运行在集群模式下，多个节点组成集群。通过分片和副本配置，可以管理和扩展集群容量。

查看分片状态：

curl -X GET "localhost:9200/_cat/shards"

动态调整副本数：

curl -X PUT "localhost:9200/my_index/_settings" -H 'Content-Type: application/json' -d'
{
  "index": {
    "number_of_replicas": 2
  }
}'

六、Elasticsearch 可视化工具：Kibana

为了更方便地管理和分析 Elasticsearch 中的数据，可以使用 Kibana，它是 Elastic Stack 的一部分，主要用于数据可视化。

1. 安装 Kibana

sudo yum install kibana -y
sudo systemctl start kibana
sudo systemctl enable kibana

Kibana 启动后，默认通过 http://localhost:5601 访问。你可以通过 Kibana 的图形界面来进行数据分析和可视化。

七、总结

Elasticsearch 是一种非常适合全文搜索和实时数据分析的分布式搜索引擎，特别适合处理大规模的非结构化数据。
它支持分布式架构、实时搜索、高扩展性等特点，是构建搜索引擎和日志分析系统的理想选择。
通过结合 Kibana 和 Logstash 等工具，能够轻松构建一个功能强大的数据处理与分析平台。