Bootstrap

运维锅总浅析Kubernetes之Ceph

Ceph 的核心组件有哪些?Ceph读写数据流程及故障自愈是怎样的?如何对Ceph部署架构进行调优?如何用Ceph集成到kubernetes?希望本文能帮您解答这些疑惑!

一、Ceph简介

Ceph 是一个开源的分布式存储系统,旨在提供高性能、高可用性和高可扩展性的存储解决方案。它通过统一存储平台,支持对象存储、块存储和文件系统,适用于各种规模的企业和云计算环境。

Ceph 的核心组件

  1. Ceph Monitor (MON):

    • 负责维护集群的地图和状态信息,包括存储池、OSD和PG(Placement Group)的分布。
    • 确保集群的一致性和高可用性。
  2. Ceph OSD (Object Storage Daemon):

    • 负责存储实际的数据,并处理数据的读写操作。
    • 每个OSD守护进程管理一个存储设备(如硬盘或SSD)。
  3. Ceph MDS (Metadata Server):

    • 负责存储Ceph文件系统(CephFS)的元数据。
    • 提供高效的文件目录操作。
  4. Ceph Manager (MGR):

    • 提供额外的监控和管理功能。
    • 通过插件扩展,如仪表板和性能监控。

Ceph 的主要特性

  1. 高可用性和数据冗余:

    • 使用多副本(Replication)或纠删码(Erasure Coding)机制来保证数据的持久性和可靠性。
    • 在节点或硬件故障时,自动进行数据恢复和再平衡。
  2. 高扩展性:

    • 采用去中心化架构,支持水平扩展,无需中断服务。
    • 可以从小规模部署扩展到数千个节点。
  3. 统一存储:

    • 同时支持对象存储(Ceph Object Gateway,兼容S3和Swift)、块存储(RADOS Block Device,RBD)和文件系统(CephFS)。
    • 提供灵活的存储服务,满足不同的应用需求。
  4. 强一致性:

    • 通过Paxos算法确保数据一致性和高可用性。
    • 支持ACID事务,保证数据操作的原子性和一致性。
  5. 高性能:

    • 使用CRUSH(Controlled Replication Under Scalable Hashing)算法,进行数据的分布和定位,避免了单点瓶颈。
    • 支持高并发的I/O操作和低延迟的访问。

Ceph 的应用场景

  1. 云计算和虚拟化:

    • 为云平台(如OpenStack)提供持久化存储,支持虚拟机的块存储和对象存储。
    • 提供高可用、高性能的存储解决方案。
  2. 大数据和分析:

    • 支持海量数据的存储和快速访问,适用于大数据处理和分析场景。
    • 提供弹性的存储扩展能力。
  3. 容器存储:

    • 与Kubernetes集成,提供持久化存储卷(Persistent Volume,PV)和动态存储卷供应。
    • 支持容器化应用的存储需求。
  4. 企业存储:

    • 适用于企业级存储需求,如数据库、邮件系统、文件共享等。
    • 提供可靠性和高可用性的存储服务。

Ceph 的部署和管理

  1. 部署工具:

    • Ceph-deploy:一个简单的命令行工具,适用于小规模测试部署。
    • Ceph-ansible:基于Ansible的自动化部署工具,适用于生产环境和大规模部署。
    • Rook:一个在Kubernetes上运行的Ceph运维工具,简化了Ceph的部署和管理。
  2. 管理和监控:

    • Ceph Dashboard:一个基于Web的管理界面,提供集群状态、性能监控和配置管理。
    • Ceph CLI:命令行工具,用于管理和维护Ceph集群。
    • Prometheus 和 Grafana:与Ceph集成,用于性能监控和可视化。

总结

Ceph 是一个功能强大且灵活的分布式存储系统,能够满足各种存储需求。无论是对象存储、块存储还是文件系统,Ceph 都提供了高性能、高可用性和高扩展性的解决方案,是现代数据中心和云计算环境中的重要存储技术。

二、Ceph读写数据流程及故障自愈

要详细描述Ceph的读写数据流程以及故障自愈的机制,并使用Mermaid图表示,我们需要了解Ceph的几个关键组件和操作步骤。下面将分别介绍数据的写入和读取流程,并说明故障自愈机制。

Ceph 写入流程

  1. 客户端发送写请求:客户端将数据分片并发送到多个Ceph OSD守护进程。
  2. 数据分片和哈希:Ceph客户端通过CRUSH算法决定数据存储的位置。
  3. 主OSD接收请求:负责写入操作的主OSD接收到客户端的数据。
  4. 复制数据:主OSD将数据复制到其余的副本OSD。
  5. 确认写入:所有副本OSD确认数据写入成功后,主OSD向客户端发送确认消息。

Ceph 读取流程

  1. 客户端发送读请求:客户端通过CRUSH算法找到存储数据的主OSD。
  2. 主OSD响应请求:主OSD将数据返回给客户端。

Ceph 故障自愈机制

  1. 故障检测:Ceph Monitor检测到某个OSD故障。
  2. 数据恢复和重平衡:Ceph会将故障OSD上的数据重新分配到其他健康的OSD上。
  3. 状态更新:恢复和重平衡完成后,更新集群状态。

以下是用Mermaid图详细表示Ceph的读写数据流程和故障自愈机制:

Fault Tolerance and Self-healing
Read Process
Write Process
Ceph triggers data recovery and rebalancing
Monitor detects OSD failure
CRUSH algorithm redistributes data to healthy OSDs
Recovery and rebalancing complete, cluster state updated
Client uses CRUSH to find primary OSD
Client sends read request
Primary OSD returns data to Client
Client uses CRUSH to determine OSDs
Client sends write request
Primary OSD receives data
Primary OSD replicates data to replica OSDs
Replica OSDs acknowledge data write
Primary OSD sends acknowledgment to Client

详细说明

  • 写入流程

    • 客户端发送写请求:客户端应用程序将数据分成块,并将这些块发送到Ceph集群。
    • 数据分片和哈希:Ceph客户端使用CRUSH算法计算出数据块应该存储在哪些OSD上。
    • 主OSD接收请求:指定为主OSD的守护进程接收数据并开始写入过程。
    • 复制数据:主OSD将数据复制到指定数量的副本OSD上(通常是2个或更多,具体取决于集群配置)。
    • 确认写入:当所有副本OSD确认数据写入成功后,主OSD向客户端发送确认消息,表示写入操作完成。
  • 读取流程

    • 客户端发送读请求:客户端应用程序请求读取存储在Ceph集群中的数据。
    • 主OSD响应请求:客户端使用CRUSH算法找到存储数据的主OSD,主OSD将数据返回给客户端。
  • 故障自愈机制

    • 故障检测:Ceph Monitor节点持续监控集群中各个OSD的状态,并检测故障。
    • 数据恢复和重平衡:检测到OSD故障后,Ceph会自动启动数据恢复和重平衡过程,将故障OSD上的数据重新分配到其他健康的OSD上。
    • 状态更新:恢复和重平衡完成后,Ceph Monitor更新集群状态,确保集群在健康状态下运行。

总结

通过以上步骤,Ceph实现了高性能、高可用性和高可靠性的分布式存储系统,并能够在出现故障时自动进行数据恢复和重平衡,保证数据的持久性和可用性。Mermaid图提供了可视化的流程,帮助更直观地理解Ceph的工作原理和机制。

三、Ceph部署架构推荐及调优

Ceph 的部署架构和调优策略对于其性能和稳定性至关重要。以下是 Ceph 部署架构的推荐以及一些关键的调优建议。

推荐的 Ceph 部署架构

1. 基础架构设计
  • 硬件选择:

    • OSD节点: 使用高性能的磁盘(NVMe/SSD)和大容量的HDD组合。每个OSD节点应至少有一块NVMe/SSD作为日志盘。
    • MON节点: 使用高可靠性的SSD,通常3到5个MON节点以保证集群的高可用性。
    • 网络: 使用高带宽、低延迟的网络(10GbE或更高),建议使用双网络,一个用于集群内部通信(Cluster Network),一个用于客户端通信(Public Network)。
  • 节点规划:

    • Ceph OSD节点: 负责存储数据,每个节点应配置多个OSD守护进程。
    • Ceph MON节点: 维护集群状态信息,建议使用奇数个节点来避免脑裂。
    • Ceph MDS节点: 如果使用CephFS文件系统,MDS节点负责元数据操作。
    • Ceph RGW节点: 如果使用对象存储,RGW节点提供兼容S3和Swift的对象存储服务。
2. 部署示例架构
Ceph Cluster
Replication
Replication
OSD Node 2
OSD Node 1
OSD Node 3
MON Node 1
MDS Node
RGW Node

Ceph 调优建议

1. 硬件调优
  • OSD节点:

    • 使用高性能磁盘(NVMe/SSD)来提高写入和读取性能。
    • 确保OSD节点有足够的内存,每个OSD至少配备2-4GB内存。
  • 网络:

    • 使用10GbE或更高的网络,确保低延迟和高带宽。
    • 为集群网络和客户端网络使用不同的网络接口,避免网络拥塞。
2. 软件调优
  • 操作系统调优:

    • 调整文件系统参数,使用适合大数据量的文件系统(如XFS或BlueStore)。
    • 调整内核参数以优化网络和I/O性能,如增加TCP缓冲区大小。
  • Ceph配置调优:

    • OSD参数调优:

      • osd_pool_default_size:设置默认副本数量,通常为3。
      • osd_pool_default_min_size:设置最小副本数量,通常为2。
      • osd_max_backfills:增加并行回填的数量,提高恢复速度。
      • osd_recovery_max_active:增加并行恢复操作的数量,提高恢复速度。
    • 监控和管理参数:

      • mon_osd_down_out_interval:设置OSD失效后多久自动标记为out,通常为600秒。
      • mon_clock_drift_allowed:设置允许的时钟漂移,通常为0.05秒。
    • 网络参数调优:

      • ms_bind_ipv6:禁用IPv6绑定,避免网络冲突。
      • ms_dispatch_throttle_bytes:增加网络传输限制,提高吞吐量。
3. 性能监控和故障排除
  • 使用Ceph Dashboard:监控集群状态、性能指标和告警信息。
  • 使用Prometheus和Grafana:集成Prometheus进行监控,使用Grafana进行数据可视化。
  • 日志分析:定期检查Ceph日志(/var/log/ceph),及时发现并解决潜在问题。
4. 常见调优场景
  • 写入性能低:

    • 增加OSD节点数量,分散写入负载。
    • 使用高速磁盘(NVMe/SSD)作为日志盘。
    • 调整osd_op_threadsosd_recovery_op_priority参数,提高写入和恢复性能。
  • 读取性能低:

    • 使用更多的副本提高读取性能。
    • 调整osd_max_backfillsosd_recovery_max_active参数,减少恢复对读取性能的影响。
  • 恢复速度慢:

    • 增加osd_max_backfillsosd_recovery_max_active参数,提高恢复速度。
    • 增加OSD节点数量,分散恢复负载。

总结

Ceph 的部署架构应根据具体需求和硬件条件进行设计,确保高性能、高可用性和可扩展性。调优过程中,需要综合考虑硬件配置、操作系统调优和Ceph配置参数调优,通过性能监控和故障排除,持续优化Ceph集群的性能和稳定性。

四、Ceph集成kubernetes举例

将 Ceph 集成到 Kubernetes 中,可以为 Kubernetes 集群提供持久存储解决方案。Ceph 和 Kubernetes 的集成通常通过 Rook(一个开源的 Kubernetes 原生 Ceph 运维工具)来实现。下面是 Ceph 集成 Kubernetes 的详细步骤和示例。

前提条件

  1. Kubernetes 集群:已经部署好的 Kubernetes 集群。
  2. Ceph 集群:可以是现有的 Ceph 集群,也可以通过 Rook 部署新的 Ceph 集群。

使用 Rook 部署 Ceph 集群

Rook 使得在 Kubernetes 中部署和管理 Ceph 集群变得更加简单。以下是通过 Rook 部署 Ceph 集群的步骤。

1. 安装 Rook Operator

首先,安装 Rook Operator,它负责管理 Ceph 集群的生命周期。

kubectl create -f https://raw.githubusercontent.com/rook/rook/release-1.7/cluster/examples/kubernetes/ceph/common.yaml
kubectl create -f https://raw.githubusercontent.com/rook/rook/release-1.7/cluster/examples/kubernetes/ceph/operator.yaml
2. 创建 Ceph 集群

创建一个 CephCluster 自定义资源(CR),Rook Operator 会根据该资源部署和管理 Ceph 集群。

创建一个名为 cluster.yaml 的文件,内容如下:

apiVersion: ceph.rook.io/v1
kind: CephCluster
metadata:
  name: rook-ceph
  namespace: rook-ceph
spec:
  cephVersion:
    image: ceph/ceph:v15.2.13
  dataDirHostPath: /var/lib/rook
  mon:
    count: 3
    allowMultiplePerNode: false
  dashboard:
    enabled: true
  network:
    hostNetwork: false
  storage:
    useAllNodes: true
    useAllDevices: true
    config:
      databaseSizeMB: "1024"
      journalSizeMB: "1024"
      osdsPerDevice: "1"
  resources:
  ...

然后应用该文件:

kubectl apply -f cluster.yaml
3. 创建存储池

创建一个 CephBlockPool 资源来配置 Ceph 存储池。

创建一个名为 pool.yaml 的文件,内容如下:

apiVersion: ceph.rook.io/v1
kind: CephBlockPool
metadata:
  name: replicapool
  namespace: rook-ceph
spec:
  replicated:
    size: 3

然后应用该文件:

kubectl apply -f pool.yaml
4. 创建存储类

创建一个 StorageClass,使 Kubernetes 可以使用 Ceph 提供的存储。

创建一个名为 storageclass.yaml 的文件,内容如下:

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: rook-ceph-block
provisioner: rook-ceph.rbd.csi.ceph.com
parameters:
  clusterID: rook-ceph
  pool: replicapool
  imageFormat: "2"
  imageFeatures: "layering"
  csi.storage.k8s.io/fstype: ext4
  # Specify the secrets for the provisioner to connect to the cluster
  csi.storage.k8s.io/provisioner-secret-name: rook-csi-rbd-provisioner
  csi.storage.k8s.io/provisioner-secret-namespace: rook-ceph
  csi.storage.k8s.io/controller-expand-secret-name: rook-csi-rbd-provisioner
  csi.storage.k8s.io/controller-expand-secret-namespace: rook-ceph
  csi.storage.k8s.io/node-stage-secret-name: rook-csi-rbd-node
  csi.storage.k8s.io/node-stage-secret-namespace: rook-ceph
reclaimPolicy: Delete
allowVolumeExpansion: true
mountOptions:
  - discard

然后应用该文件:

kubectl apply -f storageclass.yaml

在 Kubernetes 中使用 Ceph 存储

1. 创建 PersistentVolumeClaim (PVC)

创建一个 PVC 来请求 Ceph 提供的存储。

创建一个名为 pvc.yaml 的文件,内容如下:

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: ceph-pvc
spec:
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: 1Gi
  storageClassName: rook-ceph-block

然后应用该文件:

kubectl apply -f pvc.yaml
2. 使用 PVC

在一个 Pod 中使用这个 PVC。

创建一个名为 pod.yaml 的文件,内容如下:

apiVersion: v1
kind: Pod
metadata:
  name: ceph-test
spec:
  containers:
  - name: ceph-container
    image: busybox
    command: [ "sleep", "3600" ]
    volumeMounts:
    - mountPath: "/mnt/storage"
      name: ceph-storage
  volumes:
  - name: ceph-storage
    persistentVolumeClaim:
      claimName: ceph-pvc

然后应用该文件:

kubectl apply -f pod.yaml

调优建议

1. 硬件调优
  • 网络: 确保 Ceph 和 Kubernetes 之间有高速网络连接(至少 10GbE)。
  • 存储设备: 使用 NVMe/SSD 作为 Ceph OSD 的日志盘,提高性能。
2. Ceph 调优
  • 调整 osd_op_threadsosd_recovery_op_priority 参数,以优化读写性能和恢复速度。
  • 确保 MON 节点和 OSD 节点有足够的内存和 CPU 资源。
3. Kubernetes 调优
  • 配置合适的 StorageClass,根据工作负载需求调整存储池策略(如副本数量和池类型)。
  • 使用资源限制和请求,确保 Pod 不会过度消耗节点资源。

总结

通过 Rook 将 Ceph 集成到 Kubernetes 中,可以为 Kubernetes 提供高性能、高可用性的持久存储解决方案。遵循上述步骤和调优建议,可以确保 Ceph 和 Kubernetes 集群的高效运行。

五、一个秘密

希望对您有所帮助!关注锅总,及时获得更多花里胡哨的运维实用操作!

图片

锅总个人博客

https://gentlewok.blog.csdn.net/

锅总微信公众号

图片

;