Bootstrap

GlusterFS(GFS)分布式文件系统

目录

一:文件系统(FS)概述

1.1文件系统的组成

1.2文件系统的作用

1.3文件系统的挂载使用

二:GFS分布式文件系统

2.1GFS简介

2.2GFS和传统的分布式文件系统(MFS)的区别

2.3GFS的特点

2.3.1扩展性和高性能

2.3.2高可用性

2.3.3全局统一命名空间

2.3.4弹性卷管理

2.3.5基于标准协议

三:GFS专业术语

3.1Brick(块存储服务器)

3.2Volume(逻辑卷)

3.3FUSE

3.4VFS(虚拟端口)

3.5Glusterd(后台管理进程):服务端

四:GlusterFS构成

五:GlusterFS 的工作原理

5.1GlusterFS 的工作流程

5.2后端存储如何定位文件

六:GlusterFS的卷类型

6.1分布式卷(Distribute volume)

6.2条带卷 (Stripe volume)

6.3复制卷(Replica volume)

6.4分布式条带卷(Distribute Stripe volume)

6.5分布式复制卷(Distribute Replica volume)

6.6条带复制卷(Stripe Replica volume)

6.7分布式条带复制卷(Distribute Stripe Replicavolume)

七:GFS部署

7.1集群环境

7.2更改节点名称

7.3关闭防火墙

7.4磁盘进行磁盘挂载,安装本地源

7.5配置/etc/hosts文件

7.6安装、启动GlusterFS(所有node节点上操作)

7.6.1将gfsrepo 软件上传到/opt目录下

7.6.2编译本地仓库

7.6.3安装

7.6.4启动服务

7.6.5建立时间同步

7.7添加节点创建集群

7.8根据规划创建卷

7.8.1创建分布式卷

7.8.2创建条带卷

7.8.3创建复制卷

7.8.4创建分布式条带卷

7.8.5创建分布式复制卷

7.9部署gluster客户端

7.9.1关闭防火墙并安装客户端软件

7.9.2创建挂载目录

7.9.3配置/etc/hosts 文件

7.9.4挂载 Gluster 文件系统

7.10测试Gluster文件系统

7.10.1卷中写入文件,客户端操作

7.10.2查看文件分布

7.11破坏性测试

八:其他维护命令

九:总结

前言:本章主要了解glusterFS的概述,重点了解glusterFS的工作原理,以及glusterFS的卷的类型。如何创建卷、部署客户端、测试文件以及一些其他的维护命令

一:文件系统(FS)概述

1.1文件系统的组成

接口:文件系统接口

功能模块(管理、存储的工具):对对象管理里的软件集合

对象及属性:(使用此文件系统的消费者)

1.2文件系统的作用

从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统

主要负责为用户建立文件、存入、读出、修改、转储文件,控制文件的存取

1.3文件系统的挂载使用

除了和文件系统以外的文件系统创建后要使用需要先挂载至挂载点后才可以被访问

挂载点即分区设备文件关联的某个目录文件

类比NFS(外部的文件系统),使用挂载的方式才可以让本地系统来使用外部的文件系统的功能

例如:配置永久挂载时,我们会写入挂载点与挂载目录,还有文件系统的名称(xfs),文件类型格式等。我们在远程跨服务器使用GFS分布式文件系统,挂载时也需要指定其文件格式(GlusterFS)


二:GFS分布式文件系统

2.1GFS简介

GFS是一个可扩展、开源的分布式文件系统(可以很好的体现出弹性伸缩的特点),用于大型的、分布式的、对大量数据进行访问的应用,在传统的解决方案中,GFS 能够灵活的结合物理的,虚拟的和云资源去体现高可用和企业级的性能存储

由存储服务器、客户端以及NFS/Samba 存储网关(可选,根据需要选择使用)组成。

没有元数据服务器组件,这有助于提升整个系统的性能、可靠性和稳定性。

GFS由三个组件组成

(1)存储服务器(Brick Server)

(2)客户端(不在本地)(且,有客户端,也会有服务端,这点类似于NFS,但是更为复杂)

(3)存储网关(NFS/Samaba)

注:没有元数据服务器组件,这有助于提升整个系统的性能、可靠性和稳定性。

无元数据服务器:
元数据是核心,描述对象的信息,影响其属性;
例如NFS,存放数据本身,是一个典型的元数据服务器可能存在单点故障,故要求服务器性能较高,服务器一旦出现故障就会导致数据丢失;
反过来看,所以无元数据服务不会有单点故障。
那么数据存放在哪里呢?会借用分布式的原则,分散存储,不会有一个统一的数据服务器

2.2GFS和传统的分布式文件系统(MFS)的区别

传统的分布式文件系统大多通过元服务器来存储元数据,元数据包含存储节点上的目录信息、目录结构等。这样的设计在浏览目录时效率高,但是也存在一些缺陷,例如单点故障。一旦元数据服务器出现故障,即使节点具备再高的冗余性,整个存储系统也将崩溃。而 GlusterFS 分布式文件系统是基于无元服务器的设计,数据横向扩展能力强,具备较高的可靠性及存储效率。

GlusterFS同时也是Scale-Out(横向扩展)存储解决方案Gluster的核心,在存储数据方面具有强大的横向扩展能力,通过扩展能够支持数PB存储容量和处理数千客户端。

GlusterFS支持借助TCP/IP或InfiniBandRDMA网络(一种支持多并发链接的技术,具有高带宽、低时延、高扩展性的特点)将物理分散分布的存储资源汇聚在一起,统一提供存储服务,并使用统一全局命名空间来管理数据。

2.3GFS的特点

2.3.1扩展性和高性能

可扩展性,扩展节点,通过多节点提高性能

GlusterFS利用双重特性来提供高容量存储解决方案。
(1)Scale-Out架构允许通过简单地增加存储节点的方式来提高存储容量和性能(磁盘、计算和I/O资源都可以独立增加),支持10GbE和 InfiniBand等高速网络互联。
(2)Gluster弹性哈希(ElasticHash)解决了GlusterFS对元数据服务器的依赖,改善了单点故障和性能瓶颈,真正实现了并行化数据访问。GlusterFS采用弹性哈希算法在存储池中可以智能地定位任意数据分片(将数据分片存储在不同节点上),不需要查看索引或者向元数据服务器查询。

2.3.2高可用性

不存在单点故障,有备份机制,类似Raid的容灾机制

GlusterFS可以对文件进行自动复制,如镜像或多次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下也能正常访问。
当数据出现不一致时,自我修复功能能够把数据恢复到正确的状态,数据的修复是以增量的方式在后台执行,几乎不会产生性能负载。
GlusterFS可以支持所有的存储,因为它没有设计自己的私有数据文件格式,而是采用操作系统中主流标准的磁盘文件系统(如EXT3、XFS等)来存储文件,因此数据可以使用传统访问磁盘的方式被访问。

2.3.3全局统一命名空间

类比 API 的性质/概念,系统里根据他命名所定义的隔离区域,是一个独立空间;统一的名称空间,与客户端交互,把请求存放至后端的块数据服务器

分布式存储中,将所有节点的命名空间整合为统一命名空间,将整个系统的所有节点的存储容量组成一个大的虚拟存储池,供前端主机访问这些节点完成数据读写操作。

2.3.4弹性卷管理

方便扩容及对后端存储集群的管理与维护,较为复杂

GlusterFS通过将数据储存在逻辑卷中,逻辑卷从逻辑存储池进行独立逻辑划分而得到
逻辑存储池可以在线进行增加和移除,不会导致业务中断。逻辑卷可以根据需求在线增长和缩减,并可以在多个节点中实现负载均衡。
文件系统配置也可以实时在线进行更改并应用,从而可以适应工作负载条件变化或在线性能调优。

2.3.5基于标准协议

基于标准化的文件使用协议,让 CentOS 兼容 GFS

Gluster 存储服务支持 NFS、CIFS、HTTP、FTP、SMB 及 Gluster原生协议,完全与 POSIX 标准(可移植操作系统接口)兼容。
现有应用程序不需要做任何修改就可以对Gluster 中的数据进行访问,也可以使用专用 API 进行访问。


三:GFS专业术语

3.1Brick(块存储服务器)

实际存储用户数据的服务器

指可信主机池中由主机提供的用于物理存储的专用分区,是GlusterFS中的基本存储单元,同时也是可信存储池中服务器上对外提供的存储目录。
存储目录的格式由服务器和目录的绝对路径构成,表示方法为 SERVER:EXPORT,如 192.168.137.20:/data/mydir/。

3.2Volume(逻辑卷)

本地文件系统的 "分区"

一个逻辑卷是一组 Brick 的集合。卷是数据存储的逻辑设备,类似于 LVM 中的逻辑卷。大部分 Gluster 管理操作是在卷上进行的。

3.3FUSE

是一个内核模块,允许用户创建自己的文件系统,无须修改内核代码

用户 空间的文件系统(类比EXT4),“这是一个伪文件系统”;以本地文件系统为例,用户想要读写一个文件,会借助于EXT4文件系统,然后把数据写在磁盘上;而如果是远端的GFS,客户端的请求则应该交给FUSE(为文件系统),就可以实现跨界点存储在GFS上

3.4VFS(虚拟端口)

内核空间对用户空间提供的访问磁盘的接口

内核态的虚拟文件系统,用户是先提交请求交给VFS然后VFS交给FUSE,再交给GFS客户端,最后由客户端交给远端的存储

3.5Glusterd(后台管理进程):服务端

在存储群集中的每个节点上都要运行

运行再存储节点的进程(客户端运行的是gluster client)GFS使用过程中整个GFS之间的交换由Gluster client 和glusterd完成


四:GlusterFS构成

模块化堆栈式架构

  • 模块化、堆栈式的架构
  • 通过对模块的组合,实现复杂的功能

1、API:应用程序编程接口
2、模块化:每个模块可以提供不同的功能
3、堆栈式:同时启用多个模块,多个功能可以组合,实现复杂的功能


五:GlusterFS 的工作原理

5.1GlusterFS 的工作流程

工作流程:

(1)客户端或应用程序通过 GlusterFS 的挂载点访问数据;

(2)linux系统内核通过 VFS API 虚拟接口收到请求并处理;

(3)VFS 将数据递交给 FUSE 内核文件系统,这是一个伪文件系统,这个伪文件系统主要用来转存,它提供一个虚拟接口,映射出来/dev/fuse这样一个虚拟路径,并向系统注册一个实际的文件系统 FUSE,而 FUSE 文件系统则是将数据通过 /dev/fuse 设备文件递交给了 GlusterFS client 端。可以将 FUSE 文件系统理解为一个代理

(4)GlusterFS client 会实时监听/dev/fuse下的数据,一旦数据更新,会把数据拿过来,client 根据配置文件的配置对数据进行处理

(5)经过 GlusterFS client 处理后,通过网络将数据传递至远端的 GlusterFS Server,server会先转存到本地的vfs虚拟文件系统中,然后再通过vfs转存到EXT3上。EXT3指的是各个block块中的EXT3文件系统中。

服务器详解:

Application:客户端或应用程序通过GlusterFSync的挂载点访问数据

VFS:linux系统内核通过VFS的API 收到请求并处理

FUSE:VFS将数据递交给FUSE内核文件系统,fuse文件系统则是将数据通过/dev/fuse设备文件递交给了GlusterFS

GlusterFS Client :通过网络将数据传递至远端的GlusterFS Server, 并且写入到服务器存储设备上

;