Bootstrap

细说LinuxAIO之一

AIO的概述

AIO的概念 ?

AIO是异步IO的简写。实际上,AIO多指一套提供了异步IO的功能的函数。

所谓“异步”,是相对同步IO来讲的。那什么是同步iO?同步IO就是普通的LinuxIO函数,这里讲的三种常见的IO模式(https://zp001.blog.csdn.net/article/details/139305428)其实都是同步IO。
同步IO的意思是:读写函数比如read()、write()等,它返回的时候,它所代表的IO动作就已经完成。

而异步IO,则是说,读写函数返回的时候,它所代表的IO动作可能还没实际完成,你需要通过后续手段来获取完成情况。

AIO函数使用的三步骤

使用AIO函数比较啰嗦,但是捋清主要逻辑后,可发现大体上是三步骤:

  1. 准备IO。你要读还是写?写哪里?这些准备工作要先记录好。代表函数就是io_prep_pwrite(),io_prep_pread()等
  2. 提交IO。代表函数是io_submit()
  3. 收割IO。就是等待IO你提交的IO的完成。至于为什么叫收割,是因为它英文原文如此。代表函数是io_getevents()

libaio、内核源码和posix AIO

要使用AIO,要先安装libaio。安装命令也很简单yum -y install libaio-devel即可。安装之后,我们就可以在代码里面调用libaio的函数比如io_submit()

有人从这就误以为aio的功能主要是这个libaio库实现的。其实不是,它的源码也在github上,down下来会发现它只有500行。它仅仅是几个AIO系统调用的封装。

AIO系统调用的主要实现者是Linux内核,实现的主要逻辑在源码目录/fs/aio.c

这说明了libaio内核系统调用是封装与被封装,使用者和实现者的关系。

比如libaio的函数io_submit(),它就封装了系统调用io_submit()。这两者的名称是一样的,在查看man page的时候要留意你看的是哪个函数的说明,别搞混了。

另外想想,如果是为了调用读写函数不阻塞,那么我新建一个线程调用它们就可以达到目的,没必要新开发专门的AIO系统调用函数呀。事实上,glibc就是这样在用户态实现了异步IO,这套函数被称为POSIX AIO,包含aio_read()、aio_write()等。

同样,别把libaio和POSIX AIO这两套函数搞混了,它们的原理大相径庭。

AIO的参考资料

介绍AIO的书籍比较少,较为重要的参考资料包括:

  1. AIO系统调用的man page。比如在Linux上输入man io_submit,就能看到这个系统调用的说明,标题栏有“system call manual”字样。
  2. libaio的源码。在github上可以获取。
  3. libaio的man page。在源码目录中有man目录,把里面的文件复制到/usr/share/man/man3,然后man 3 io_submit就可以查看。这时候看到的man page标题有“Linux AIO"字样,和系统调用的io_submit函数区别开。
  4. FIO源码中libaio ioengine源码。FIO是压测工具,看它怎么用AIO函数是非常有参考价值的,可以从它的选项中看到AIO有多少种使用方式,该怎么调用。总之,学习AIO、io_uring跟着axboe就对了。
  5. AIO实现的内核源码。主要是io_setup()、io_submit()和io_getevent()三个系统调用的实现。
  6. LWN上面有几篇说到AIO的文章,文章列表:https://lwn.net/Kernel/Index/#Asynchronous_IO
  7. littledan的文章: https://github.com/littledan/linux-aio

示例代码

#define _GNU_SOURCE
#include <fcntl.h>
#include <libaio.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <unistd.h>

int main(void) {
  const char *content = "hello world\n";
  const char *outputfile = "/mnt/ext4/hello.txt";
  int fd;
  int ret;
  io_context_t ctx;
  struct iocb io, *pio = &io;
  struct io_event e;

  bzero(&ctx, sizeof(io_context_t));
  ret = io_setup(10, &ctx);
  if (ret != 0) {
    return 1;
  }
  if ((fd = open(outputfile, O_DIRECT | O_CREAT | O_TRUNC | O_WRONLY, 0644)) <
      0) {
    fprintf(stderr, "open() error, ret: %d\n", ret);
    goto err_out1;
  }

#define SECTORSIZE 512
  char _Alignas(SECTORSIZE) buf[SECTORSIZE];
  bzero(buf, SECTORSIZE);

  strcpy(buf, content);
  io_prep_pwrite(&io, fd, (void *)buf, SECTORSIZE, 0);

  ret = io_submit(ctx, 1, &pio);
  if (ret != 1) {
    fprintf(stderr, "io_submit() error, ret: %d\n", ret);
    goto err_out2;
    return 1;
  }

  ret = io_getevents(ctx, 1, 1, &e, NULL);
  if (ret != 1) {
    fprintf(stderr, "io_getevents() error, ret: %d\n", ret);
    goto err_out2;
  }
  close(fd);

  io_destroy(ctx);
  return 0;

err_out2:
  close(fd);
err_out1:
  io_destroy(ctx);
  return 1;
}

编译命令

gcc -std=gnu11 -Wall -laio aio.c

这个例子往文件里面写了个"hello world"

下面细细说来

异步使用IO函数

从上面例子,大概有种印象:所谓异步IO,就是异步使用IO函数:pread()、pwrite()这些。

       ssize_t pread(int fd, void buf[.count], size_t count,
                     off_t offset);
       ssize_t pwrite(int fd, const void buf[.count], size_t count,
                     off_t offset);

pread()、pwrite()本来是同步IO函数,open()之后就可以直接使用它们,但它们的默认行为是等IO完成后才返回。但经过AIO的prepare、并提交之后,就实现了异步形态的pread()和pwrite()。

这是对AIO最简单粗暴的理解。

类似的,AIO还可以prepare的函数包括:preadv()、pwritev()等

AIO和direct IO

这个AIO例子中使用了direct IO,所以directIO的四个要求全都要符合:

  1. 定义_GNU_SOURCE
  2. open的时候打上O_DIRECT标记
  3. buf要512字节对齐
  4. buf长度要是512字节的倍数

更详细的directIO说明请见https://zp001.blog.csdn.net/article/details/139305428

网上不少文章都说AIO一定要使用directIO,其实不一定,内核很早就支持让AIO使用bufferedIO了,只不过使用bufferedIO不一定是个好选择,这里从惯例使用directIO。后续文章继续分说。

io_setup()

long io_setup(unsigned int nr_events, aio_context_t *ctx_idp);

io_setup()的作用就是生成这个aio_context_t结构对象ctx,后续一系列的操作都会用这个ctx来做标记凭证,表示这一系列操作与此ctx相关。

io_setup()有两个参数,两个参数都不太好理解。这两个参数的关系是这样的:

第二个参数 是AIO的context上下文(简称ctx),它代表一个环形队列,简单粗暴可以理解成队列,每个队列元素对应一个读写IO操作的完成状态,这个队列能暂存多少个IO,就是 第一个参数 nr_event所指定。

这个nr_event是什么东西呢?

第一个理解就是上述环形队列中暂存inflight(发出去但未完成) IO的个数。这个数量在整个OS范围内是有个限制的,使用sysctl -a可以看到当前系统的已经使用的数量以及最大数量。

sysctl -a |grep aio
fs.aio-max-nr = 1048576 # 最大值
fs.aio-nr = 0 # 当前已使用的数量

当你io_setup(16,xxx),上面fs.aio-nr就会增加16

但了解到这里并不足以让我们判断这里该输入8还是8192。

它的本质还是那个:inflight IO的个数的。所以该填什么,取决于你IO的目标能承受多少个并发的IO。

比如,你对/dev/sdb裸设备进行AIO,那么可以参考它的queue_depth值来设置,我的虚拟机中,这个值是32.

❯ cat /sys/block/sdb/device/queue_depth
32

如果你对普通文件进行AIO,那么也可以参考FS地下的设备的queue_depth来进行折算和调整,以性能测试为准。

但明确一点,这里设置的是inflight IO的最大值。即如果你设置了16,那么在下面一次调用io_submit()之前,你调用io_prep_xxx()的次数就不能超过16;调用io_submit()函数中的第二个参数的也不能超过16。

那是否需要一个ctx对应一个fd呢?其实并无限制。可以使用一个ctx对多个文件df进行IO。但如果一个ctx只对应一个fd,只少有一个好处,就是方便计算这个fd的inflight IO数量,方便编程让它时刻保持这个数量,达到压力最大,性能最大。

io_prep_pwrite()

inline void io_prep_pwrite(struct iocb *iocb, int fd, void *buf, size_t count, long long offset)

io_prep_pwrite()的作用是准备一个写IO操作(pwrite()),预先准备好这个pwrite()函数的所有参数,把这些参数存至iocb对象中去。此刻,并未调用pwrite(),也就是说,并没有开始进行IO

io_prep_pwrite()其实并不是要调用哪个系统调用,它仅仅是一个helper函数,方便我们程序员填充struct iocb而已。比如这个io_prep_pwriter()的源码也就下面这样,一目了然

static inline void io_prep_pwrite(struct iocb *iocb, int fd, void *buf, size_t count, long long offset)
{
	memset(iocb, 0, sizeof(*iocb));
	iocb->aio_fildes = fd;
	iocb->aio_lio_opcode = IO_CMD_PWRITE;
	iocb->aio_reqprio = 0;
	iocb->u.c.buf = buf;
	iocb->u.c.nbytes = count;
	iocb->u.c.offset = offset;
}

调用io_prep_pwrite()一次,就准备了一个iocb,io_submit()之后,inflight IO就增加了1。

从上面源码来看,经过prepared之后,一个IO操作所需的所有信息就存在了struct iocb里面,所以AIO使用iocb来代表一个IO操作。

io_submit()

int io_submit(io_context_t ctx, long nr, struct iocb *iocbs[]);

这个函数的作用是把之前准备好的io操作(也就是iocb对象)提交进内核。
我们在这个例子中只准备了一个pwrite(),当这个io_submit()调用完成后,pwrite()这个动作便会真正开始。

第一个参数不用说,就是之前io_setup()好的ctx。

第二个参数和第三个参数的作用就是把我们之前io_prep_xxx()准备好的iocb都告诉内核。它采用数组地址+数组数量的方式传参,是为了一次io_submit()能传递多个iocb对象。所以在调用io_submit()之前,我们要把所有的iocb对象的地址都存到一个数组中去。

io_submit() 的阻塞

这里要特意说的是,io_submit()这个函数应该很快就返回才对,它应该在提交的所有IO完成之前返回,从而实现“异步IO”的语义,对吧,如果它等所有IO都完成了才返回,那为啥还叫AIO呢?

这点在littledan的文章中写得很清楚:

When used under the right conditions, io_submit should not block. However, when used in certain ways, it may block, undermining the purpose of asynchronous I/O. — https://github.com/littledan/linux-aio

遗憾的是,现在还是有些情况会使得io_submit()卡住的,从而"退化"成了同步IO。

man page也提到,这些可能会使得io_submit()阻塞的情况包括:

  1. 文件系统层次中,为文件申请磁盘块
  2. 刷脏的page cache
  3. 锁竞争
  4. 文件系统下层的block设备IO拥塞(从这里看,并不是io_setup()中的nr_event越大越好)

如果你不想中这些情况中阻塞io_submit(),那么在4.14内核开始,可以使用RWF_NOWAIT标记来prepare该iocb,那么这时io_submit()就会马上返回-EAGAIN

         RWF_NOWAIT (since Linux 4.14)
                            Don't wait if the I/O will block for operations such as file block allocations, dirty page  flush,  mutex  locks, or a congested block device inside the kernel.  If any of these conditions are met, the control block is returned  immediately  with  a  return value of -EAGAIN in the res field of the io_event structure (see io_getevents(2)).

幸好,我们有strace工具,strace一下你的程序,就能知道它花在io_submit()中有多长时间,我们的“异步”是否有效。使用办法:

strace -c ./myaio

io_submit()的部分成功

io_submit()还有个特点,就是它允许部分成功。这是说,你提交8个IO,io_submit()返回的时候告诉你成功提交4个,该怎么办?

就是得让程序员看着办:再次提交没提交成功的那些IO。给程序员带来了编程的一点麻烦。

io_getevent()

int io_getevents(io_context_t ctx_id, long min_nr, long nr, struct io_event *events, struct timespec *timeout);

这个函数的作用就是在此阻塞,等待之前提交的IO的完成。

它要阻塞到什么时候呢?

  1. 至少有min_nr(参数二)个提交的IO完成
  2. 或者timeout(参数5)指定的时间到了

如果你看资料,会看到一个术语叫收割(reap),意思便是这个,等待IO完成。io_gentevents()是收割方式之一,它至少会收割min_nr个IO,最多收割nr个IO。

收割的IO的结果,存放于events数组里面。

这里用到了一个叫event的对象,为什么内核通知你IO完成是给你一个这个东西呢?

我们来看看一个正常的pwrite()的调用结果是什么。

ssize_t pwrite(int fd, const void buf[.count], size_t count, off_t offset);

可以看到,对于IO结果的描述,我们只需要一个ssize_t的返回值(下称ret)即可,其它的不需要。

但是AIO不能这么做,如果它直接给你返回一堆ret(ret数据组),你能分辨哪个ret是哪个IO操作的结果?所以内核还要告诉我们是哪个iocb的返回值,所以至少内核要返回两个东西:ret + iocb地址

但这也还不够方便,我必须拿这个返回的iocb地址和我之前保存的一堆iocb地址逐个比较才能知道是哪个IO操作产生的返回值,有无办法能在IO的过程中让我携带一些标记,好让我快速知道是我哪个IO操作返回来呢?有的,内核允许你夹带一个私货:iocb->data,你在prepared的时候保存一个什么东西到这个字段,IO完成后内核按照原样给你回传回来。

以上就是struct event的最主要的三个字段:ret返回值、iocb地址和一个你自定义的字段

struct io_event {
	PADDEDptr(void *data, __pad1); //用户自定义字段
	PADDEDptr(struct iocb *obj,  __pad2); // 对应的iocb对象地址
	PADDEDul(res,  __pad3); // io操作的返回值
	PADDEDul(res2, __pad4);
};

有个细节:pwrite()的返回值是个ssize_t,有符号数,因为它用<0的值表示io出错了;但是io_event->res是个无符号数,所以,要先把它转换成ssize_t才能知道是否IO出错。

为什么要使用AIO

现在回过头来想想,为什么要使用AIO。我想来想去,觉得有两个因素:它enable了异步的编程模式以及可以控制iodepth(性能加速)

异步编程模式

这要从同步IO开始说起,比如说一个程序调用了read()函数。这个函数的执行时间是多少呢?

根据《深入理解软件性能》P10,“每一位优秀的程序员都应该知道的数字”,大概可以获得一种印象:

磁盘访问的速度是毫秒级(ms)的

内存的速度是微秒(us)级的

CPU缓存的速度是纳秒(ns)级的

这是说,如果read()函数的调用时间为1ms,其实它有相当一部分时间是在等待IO的完成,如果我们能把这1ms拿出来跑代码,不进行IO操作,可以跑几千到几十万行代码,(只是为获得一个感性的印象而估计,别较真)。

异步编程作用就是这样,帮你把这1ms拿出来跑你的代码:你io_submit()之后,可以继续往下跑代码,不阻塞当前线程。

这当然是好事。

但另一方面,它也带来了编程的复杂性。即AIO给我们带来的两个API,io_submit()io_getevent(),它们代表着新的一套编程思维。不信的话,可以想象一下,如何用AIO实现一个拷贝文件的程序,就会发现程序逻辑完全不同于普通的read()和write()。

其中的重点应该就是io_getevents()函数,不少人就喜欢围绕这个函数打造一个IO响应式框架,从而合理安排程序各部分逻辑。

一种顺理成章的思路就是:我用一个专用的线程,不停循环调用io_getevents(),每当有IO完成,我就用回调函数的办法通知程序的其它部分。

事实上,在libaio.h中就有这样的辅助函数,可以帮你完成上面的思路:

typedef void (*io_callback_t)(io_context_t ctx, struct iocb *iocb, long res, long res2);

static inline void io_set_callback(struct iocb *iocb, io_callback_t cb)
{
	iocb->data = (void *)cb;
}

它帮你预先定义好回调函数的格式,以及设置回调函数的方便函数io_set_callback(),然后利用iocb->data的字段来存放这个函数地址,那么在IO完成之后,也就是io_getevents()成功之后,就可以在event对象中取回这个函数地址,手工调用这个函数地址,从而完成一个简单的IO响应编程框架。

libaio也顺着这个思路帮我们对io_gentevents()做来简单封装,实现了io_queue_run(),如下,其实就是不断调用io_getevents(),然后等io返回后调用你设置的回调函数。

int io_queue_run(io_context_t ctx)
{
	static struct timespec timeout = { 0, 0 };
	struct io_event event;
	int ret;

	/* FIXME: batch requests? */
	while (1 == (ret = io_getevents(ctx, 0, 1, &event, &timeout))) {
		io_callback_t cb = (io_callback_t)event.data;
		struct iocb *iocb = event.obj;

		cb(ctx, iocb, event.res, event.res2);
	}

	return ret;
}

所以,可以使用上述函数实现简单的编程模型。

AIO带来的性能提升

不少人都会以为AIO要比普通IO更高级,性能更好。其实这样理解很模糊。

AIO真正能比普通IO要厉害的地方在于,它能让程序员控制inflight IO的个数,也就是说你能控制同时发几个IO。而普通的write() read()相当于同时只能发一个IO(要等函数返回,即上一个IO完成后,才能发下一个IO)。这一点可以从FIO的源码设计上得到辅证。

从上面的描述就知道,这事情并不绝对:

  1. 我可以用AIO同时发16个连续的、4KiB io size的IO,但我也可以用普通IO发一个64KiB io size的IO。很多时候,这两种做法的性能是一样的。
  2. 我用AIO同时发16个不连续的IO,另一方面,我用普通IO挨个发16个连续的IO,这两种情况就难以断定谁一定更快。

说回来,AIO的本质也就是能让程序员控制inflight IO的个数,如果它能带来性能提升,是因为它发出了受底层磁盘欢迎的IO pattern。

一般的磁盘喜欢连续的IO写入,并且有一定数量的并发IO接受能力(queue_depth),而使用AIO比较容易发出这样的IO,所以能获得性能提升。

如果你的IO设备,比如某些自行实现的fuse文件系统,它没法承受任何的并发IO,那么使用AIO也不会获得性能加速。

;