Bootstrap

Linux x86_64 程序动态链接之GOT 和 PLT

前言

这篇文章描述了:Linux x86_64 程序静态链接之重定位,接来本文描述Linux x86_64 程序动态链接之GOT 和 PLT。

一、动态链接

链接器可以将不同的编译单元所生成的中间文件组合在一起,并且可以为各个编译单元中的变量和函数分配地址,然后将分配好的地址传给引用者。这个过程就是静态链接。静态链接可以让开发者进行模块化的开发,大大的促进了程序开发的效率。但同时静态链接仍然存在一个比较大的问题,就是无法共享。例如程序 A 与程序 B 都需要调用函数 foo,在采用静态链接的情况下,只能分别将 foo 函数链接到 A 的二进制文件和 B 的二进制文件中,这样导致系统同时运行 A 和 B 两个进程的时候,内存中会装载两份 foo 的代码。那么如何消除这种浪费呢,这就是我们接下来的主题:动态链接。

动态链接的重定位发生在加载期间或者运行期间,它的实现依赖于地址无关代码。

要想解决静态链接的问题,可以把共享的部分抽离出来,组成新的模块。为了让一些公共的库函数能够被多个程序,在运行的过程中进行共享,我们可以让程序在链接和运行过程中,也拆分成不同的模块,即共享模块和私有模块。共享模块用来存放供所有进程公共使用的库函数,私有模块存放本进程独享的函数与数据。

目前解决共享问题,采用的通用的思路是,将常用的公共的函数都放到一个文件中,在整个系统里只会被加载到内存中一次,无论有多少个进程使用它,这个文件在内存中只有一个副本,这种文件就是动态链接库文件。

它在 Linux 里是共享目标文件 (share object, so),在 windows 下是动态链接库文件 (dynamic linking library, dll)。当然,以上只是一个最基本的想法,要想真正实现动态链接的技术还有很多问题需要考虑。接下来,我们来看最主要的两个问题。

(1)第一个问题是,由于公共库函数的代码要在多个不同的进程中进行共享,也就是说,不同的进程运行的库的代码是同一份,这就要求共享模块的代码必须是地址无关的,因为每个进程都有自己独立的内存空间,系统 loader 无法保证共享模块加载的内存地址,对于每个进程而言都是相同的地址。

例如进程 A 加载的 libfoo.so 的起始地址可能是 0x1000,而进程 B 加载的 libfoo.so 的起始地址可能是 0x3000,如果 libfoo.so 里代码访问的函数或者数据是绝对地址的话,那必然会造成进程 A 与 B 的冲突。

(2)第二个问题是,我们知道,虽然在开发的过程中,开发者可以将程序模块化处理,但还是需要静态链接来将不同模块链接到一起,对符号进行重定位,这样运行时 CPU 才能知道各个函数、变量的真正地址是什么。

同样的,要想让程序在运行过程中也进行模块化,那就意味着,不同模块之间符号的链接过程,需要推迟到加载时进行了,这也是动态链接 (Dynamic Linking) 技术名字的由来。

二、位置无关代码

无论我们在内存的何处加载一个动态库,数据段与代码段的距离总是保持不变。因此,代码段中任何指令和数据段中任何变量之间的距离都是一个运行时常量,与代码段和数据段的绝对内存位置是无关的。

现代操作系统(比如Linux)使用位置无关的代码编译动态库。

可以加载而无需重定位的代码称之为位置无关的代码(Position-Independent Code,PIC),操作系统已这样一种方式编译共享模块的代码段,使得可以把它们加载到内存的任何位置而无需链接器修改。使用这种方法,无限多个进程可以共享一个共享模块的代码段的单一副本。

这里,我们将把 sum.c 文件编译成动态库,并让 main.c 对应的应用程序使用。整个过程可以分为如下几步:
(1)使用命令 gcc sum.c -shared -fPIC -o libsum.so 将文件 sum.c 编译成名为 libsum.so 的动态库文件。这一步中使用的参数 “-shared” 表明创建一个动态库;参数 “-fPIC” 表明生成“位置无关代码”。

(2)使用命令 gcc -o main main.c -lsum -L. 编译应用程序。这里我们将 main.c 与第一步生成的 libsum.so 共享库放在一起编译。命令中,参数 “-L.” 可用于为编译器指定更多的共享库查找目录,这里我们为其添加了 libsum.so 的所在目录;参数 “-l” 则用于指定需要参与编译的共享库,通过指定名称 “sum”,编译器会自动使用搜索到的,合法的 libsum.so 文件。

(3)使用命令 export LD_LIBRARY_PATH=.:$LD_LIBRARY_PATH 设置动态链接器在查找相关动态库时的位置。顾名思义,动态链接器是一段在程序运行时,用于帮助其查找所需共享库的代码。它在查找指定共享库文件时,会按照一定顺序,从多个不同位置进行查找。而这里通过 LD_LIBRARY_PATH 环境变量指定的位置,便是其中一个。

位置无关代码(Position Independent Code,PIC)是一类特殊的机器代码,这些代码在使用时,可以被放置在每个进程 VAS 中的任意位置,而无需链接器对它内部引用的地址进行重定位。大多数现代 C 编译器在编译源代码时,均会默认产生这种 PIC 代码,而无需用户显式指定。当然,为了以防万一,你也可以通过添加 “-fPIC” 等参数的方式来明确指出。

通常来说,我们可以将模块(可以理解为独立的应用程序,或共享库)之间的数据引用分为四种方式:
(1)模块内部的函数调用;
(2)模块内部的数据访问;
(3)模块之间的函数调用;
(4)模块之间的数据访问。

其中,模块内部的函数调用在大多数情况下可以直接以 PC-relative 的寻址方式进行,因此它并不依赖于目标函数在整个进程 VAS 内的绝对地址。**而对于模块内部的数据访问,由于编译器在生成模块代码时,其 .data 与 .text 两个 Section 之间的相对位置是固定的,数据的访问也可以使用稳定的相对地址进行。**总的来看,发生在模块内部的数据或函数资源引用,都不会因为模块代码被加载到进程 VAS 的不同地址而受到影响。但对于不同模块之间来说,事情就变得复杂了起来。

来看一个简单的例子。假设有一个共享库 M,它在内部的某个函数需要引用由应用程序定义的某个全局变量。而此时,程序 A 与 B 都想使用 M 中的这个函数。但相关的共享库代码(引用处)以及程序代码(被引用处),两者在进程 VAS 中的具体加载位置都并不确定。因此,在大多数情况下,两个程序对 M 中该变量引用地址的重定位修改值也并不相同。而这便会导致它们无法真正地共享同一份物理内存中模块 M 的代码。

PIC 的出现使得共享库代码可以做到真正地被多个进程复用,它利用了一个很简单的思想,即“将易变的部分抽离到进程独享的可修改内存中”。而为了做到这一点,编译器需要为各个模块添加额外的 Section 结构,这就是我接下来要讲的“全局偏移表”。

三、GOT 和 PLT

在 Linux x86_64 中,程序的动态链接通过全局偏移表(Global Offset Table,GOT)和过程链接表(Procedure Linkage Table,PLT)来实现。这两个表在 ELF 可执行文件中起着重要的作用,特别是在处理共享对象(共享库)的动态链接时。

3.1 GOT

全局偏移表(GOT):GOT 是一个数组,其中包含有关动态链接符号的信息。当程序需要访问共享库中的全局变量或函数时,它们的地址将被存储在 GOT 中。当第一次访问这些全局变量或函数时,GOT 中的地址将被更新为正确的地址。通过使用 GOT,程序可以在运行时解析共享对象的符号。

GOT包含所有需要动态链接的外部函数的地址(在第一次执行后)。

全局偏移表(Global Offset Table,GOT)是位于每个模块 Data Segment 起始位置处的一个特殊表结构,其内部的每个表项中都存放有一个地址信息。而这些地址便分别对应于被当前模块引用的外部函数或变量在进程 VAS 中的实际地址。

模块在被编译时,其 Text Segment 与 GOT 之间的相对距离是能够计算出来的。因此,编译器可以利用这一点,来让代码直接引用 GOT 中的某个表项。同时,编译器还会为这些表项生成相应的重定位记录。这样,当程序被加载进内存时,动态链接器就可以根据实际情况,通过修正 GOT 表项中的值,来做到间接修正代码中对应符号的实际引用地址。如下图所示:
在这里插入图片描述

GOT是一个数组,其中每个条目是8个字节。GOT[0],GOT[1]包含了动态链接器在解析函数地址时会使用的信息。GOT[2]是动态链接器在ld-linux.so(ld-linux-x86-64.so.2)模块中的入口点。其余的每项条目对应一个被调用的函数,其地址在运行时被解析。每个条目都有一个相匹配的 PLT 条目。初始化时,每个 GOT 条目都指向对应 PLT 条目的第二条指令。

地址数组项内容描述
0x0GOT[0]addr of .dynamic第一个表项中保存的是 .dynamic 的地址。这个 Section 中保存了动态链接器需要使用的一些信息;
0x8GOT[1].so id第二个表项中保存的是当前模块(动态库)的描述符 ID;
0x10GOT[2]addr of dynamic linker第三个表项中保存的是函数 _dl_runtime_resolve 的地址。该函数由操作系统的运行时环境提供,它将参与到 GOT 的运行时重定位过程中。这个函数的作用是找到需要查找的符号地址,并最终回填到 GOT.PLT 表的对应位置。
0x18GOT[3]addr of fun symbol1动态库中函数1的地址(初始时指向对应 PLT 条目的第二条指令,只有应用程序调用该函数后重定位解析后存放实际的地址)
0x20GOT[4]addr of fun symbol2动态库中函数2的地址
0x28GOT[5]addr of fun symbol3动态库中函数4的地址
0x30GOT[6]addr of fun symbol4动态库中函数5的地址
0x…GOT[.]addr of fun symbol.动态库中函数.的地址
0x8*nGOT[n]addr of fun symboln动态库中函数n的地址

注意:GOT[3] - GOT[n] 在初始化的时候,每个 GOT 条目都指向对应 PLT 条目的第二条指令,没有存放对应符号的地址,只有在应用程序第一次调用后重定位其符号才修改为对应符号的地址。

将函数地址的重定位工作一直推迟到第一次访问的时候再进行,这就是延迟绑定 (Lazy binding) 的技术。这样的话,对于整个程序运行过程中没有访问到的全局函数,可以完全避免对这类符号的重定位工作,也就提高了程序的性能。

由于初始化时每个 GOT 条目存在的不是动态链接的外部函数的地址,所以编译器为每个 GOT 条目生成一条重定位记录。程序要想访问动态链接的外部函数,就要进行重定位:
(1)第一种方案就是一次性将动态链接的外部函数全部解析,获取其地址,然后填写到对应的的 GOT 条目中,但是这样开销很大,因为动态链接库的很多外部函数不会调用,因此不需要解析其实际的函数地址。比如 libc.so.6 ,这个库中有很多函数,应用程序只会使用libc.so.6库中的一少部分函数,因此不需要解析libc.so.6的所有函数,应用程序用到了哪些函数就解析对应的函数,因此引用了第二种方案。

(2)第二种方案就是 延迟绑定 (Lazy binding)。为了避免在加载时就把 GOT 表中的符号全部解析并重定位,将函数地址的重定位工作一直推迟到第一次访问的时候再进行,这就是延迟绑定 (Lazy binding) 的技术。这样的话,对于整个程序运行过程中没有访问到的全局函数,可以完全避免对这类符号的重定位工作,也就提高了程序的性能。

想情况下,我们把 GOT 中的待解析符号的地方都填成动态符号解析的函数就可以了,当 CPU 执行到这个函数的时候,就会跳转进去解析符号,然后把 GOT 表的这一项填成符号的真正的地址。

在 ELF 文件中,GOT 对应的整个 Section 实际上被划分为更细致的 .got 与 .got.plt 两个部分。其中,前者主要用于保存相关全局变量的地址信息;而后者则主要参与到函数符号的延迟绑定过程中。

3.2 PLT

虽然我们可以让动态链接器在程序加载时,将其代码中使用到的所有外部符号地址,更新在相应的 GOT 表项中,但当程序依赖的外部符号越来越多时,重定位的成本也会越来越高。而这便会导致程序初次运行时的“启动延迟”逐渐变大,甚至影响到程序正常功能的运作。为了解决这个问题,编译器为模块另外添加了名为“过程链接表(Procedure Linkage Table,PLT)”的 Section 结构。该表将协同 GOT,一起进行针对函数符号地址的“延迟绑定”。

过程链接表(PLT):PLT 是一个数组,其中每个条目是16字节,其中包含了函数调用的代码。当程序调用共享库中的函数时,它实际上调用 PLT 中的一个包装器函数。这个包装器函数会在第一次调用时负责解析函数的地址,并更新 GOT 条目以便将函数的真实地址存储在 GOT 中。随后的函数调用会直接跳转到 GOT 中存储的地址,绕过 PLT。

PLT 是位于 Text Segment 中的一个表结构,其内部同样由众多表项组成。每个表项中都有着一段特殊的机器代码,用于完成相应任务。其中,PLT[0](即 PLT 中的第一个表项,其他写法依此类推)较为特殊,它内部存放的代码专门用于调用动态链接器。而其他表项中则依次存放着,用于完成用户函数调用过程的相关代码。这些表项的地址将被程序中的 call 指令直接使用。

PLT: 包含调用外部函数的跳转指令(跳转到GOT表中),以及初始化外部调用指令(用于链接器动态绑定dl_runtime_resolve)

PLT[0]:一个特殊条目。跳转到动态链接器。
从PLT[1]开始的条目调用用户代码调用的函数。也包括了系统启动函数(__libc_start_main),它初始化执行环境,调用main函数并处理其返回值。

每个PLT条目都负责一个具体的函数。一个PLT条目有三条指令:

# cat fput.c
#include <stdio.h>

int main() {
    char str[] = "Hello, World!\n";

    fputs(str, stdout);

    return 0;
}

# gcc -g fput.c
# objdump -d a.out

a.out:     file format elf64-x86-64
......
Disassembly of section .plt:

0000000000400430 <.plt>:
  400430:       ff 35 d2 0b 20 00       pushq  0x200bd2(%rip)        # 601008 <_GLOBAL_OFFSET_TABLE_+0x8>
  400436:       ff 25 d4 0b 20 00       jmpq   *0x200bd4(%rip)        # 601010 <_GLOBAL_OFFSET_TABLE_+0x10>
  40043c:       0f 1f 40 00             nopl   0x0(%rax)

0000000000400440 <fputs@plt>:
  400440:       ff 25 d2 0b 20 00       jmpq   *0x200bd2(%rip)        # 601018 <fputs@GLIBC_2.2.5>
  400446:       68 00 00 00 00          pushq  $0x0
  40044b:       e9 e0 ff ff ff          jmpq   400430 <.plt>

0000000000400450 <__libc_start_main@plt>:
  400450:       ff 25 ca 0b 20 00       jmpq   *0x200bca(%rip)        # 601020 <__libc_start_main@GLIBC_2.2.5>
  400456:       68 01 00 00 00          pushq  $0x1
  40045b:       e9 d0 ff ff ff          jmpq   400430 <.plt>

可以看到每个条目都是 16 个字节。

比如:

0000000000400440 <fputs@plt>:
  400440:       ff 25 d2 0b 20 00       jmpq   *0x200bd2(%rip)        # 601018 <fputs@GLIBC_2.2.5>
  400446:       68 00 00 00 00          pushq  $0x0
  40044b:       e9 e0 ff ff ff          jmpq   400430 <.plt>

第一条跳转指令跳到 fputs 函数对应的 GOT[ ]数组中。第一行是一个间接跳转,跳转的目标地址存储在 0x601018 这个位置,通过 objdump 我们可以找到这个位置位于.got.plt 段里。.got.plt 段跟.got 段是一样的,存放的是 GOT 表,只不过.got.plt 里边的 GOT 表是为 PLT 表准备的。

Disassembly of section .got.plt:

0000000000601000 <_GLOBAL_OFFSET_TABLE_>:
  601000:       28 0e                   sub    %cl,(%rsi)
  601002:       60                      (bad)
        ...
  601017:       00 46 04                add    %al,0x4(%rsi)
  60101a:       40 00 00                add    %al,(%rax)
  60101d:       00 00                   add    %al,(%rax)
  60101f:       00 56 04                add    %dl,0x4(%rsi)
  601022:       40 00 00                add    %al,(%rax)
  601025:       00 00                   add    %al,(%rax)
        ...

在这里 0x601018 的位置存放的值是 0x400446。这就跳回到 fputs@plt 里继续执行了,这是我们上面所分析的一级跳,是为了传递参数给符号解析函数的。最终经过传参,跳转,控制流才终于进入到 dl_runtime_resolve 中解析符号并做重定位。

第二条指令将 fputs 的 id 压入栈中。这个数值0x0代表了 fputs 的 ID。

第三条指令跳转的 <.plt> section的其实地址 就 PLT[0]。jmp 到 PLT[0] 的表项中进行执行;

动态链接的过程大致如下:
(1)当程序被加载时,动态链接器会负责解析程序和共享库的依赖关系。
(2)当程序访问共享库中的全局变量或函数时,首先跳到对应的 PLT条目,然后对应 PLT条目的第一条指令跳转对应的 GOT 条目,通过 GOT 来获取符号的地址。
(3)如果地址尚未解析,又从GOT 跳转回来到对应 PLT条目的第二条指令,然后第三条指令将跳转到 PLT 的第一项PLT[0]。PLT[0]将GOT[1]压栈,然后通过GOT[2]间接的跳转到动态链接器。
(4)动态链接器来解析符号的地址,并更新 GOT 中的地址。
(5)下次访问该符号时,程序将直接跳转到对应的 PLT条目,然后跳转到 GOT 中存储的地址。

3.3 延时绑定

将函数地址的重定位工作一直推迟到第一次访问的时候再进行,这就是延迟绑定 (Lazy binding) 的技术。这样的话,对于整个程序运行过程中没有访问到的全局函数,可以完全避免对这类符号的重定位工作,也就提高了程序的性能。

理想情况下,我们把 GOT 中的待解析符号的地方都填成动态符号解析的函数就可以了,当 CPU 执行到这个函数的时候,就会跳转进去解析符号,然后把 GOT 表的这一项填成符号的真正的地址。如下图所示:
在这里插入图片描述
但是动态解析符号的函数 _dl_runtime_resolve 依赖两个参数,一个是当前动态库的 ID,另一个是要解析的符号在 GOT 表中的序号。动态库的 ID 存储在 GOT 的 0x8 偏移的位置,而要解析的符号序号却不容易得到。

为了解决传递参数的问题,动态链接又引入了过程链接表(Procedure Linkage Table, PLT),将动态解析符号的过程做成了三级跳。如下图所示:
在这里插入图片描述
在图中,我用序号①、②、③和它们旁边的箭头分别给你标注出了三级跳的路径。如果你仔细观察的话,你还会发现这张图与上一张图的主要变化就是引入了.plt 段,在代码段里,main 函数对 B 函数的调用转成了对"B@plt"的调用,"B@plt"函数只有三条指令。

它的第一条指令 jmp *(GOT[3]) 是一个间接跳转,跳转的目标是 GOT 表偏移为 0x18 的位置,正常情况下,这个位置应该放的是 B 函数的真实地址。但现在填入的是指向了 B@plt + 0x6 的位置,这是为了传递参数给 _dl_runtime_resolve 函数。B@plt+0x6 的位置其实就是 B@plt 函数的第二条指令,它的作用是将函数参数入栈,然后执行第三条指令 jmp .plt 再准备第二个参数。

B@plt+0x6 : 是因此B@plt第一条指令有六个字节。

我们再回到图中看看,在序号①箭头的位置,也就是第一级跳转,它的目的是把参数 0 入栈。由于 GOT 表的 0x0,0x8,0x10 的位置都被占用了,所以参数 0 代表的就是 0x18 位置,这就是 B 函数的真实地址应该存放的地方。

然后在序号②箭头的位置,发生了第二级跳转,这一次是为了把动态库的 ID 号压栈传参。

最后在序号③箭头的位置,继续进行第三级跳转,这一次跳转才真正地调用到了 _dl_runtime_resolve。调用完这个方法以后,B 函数的真实地址就会被填入 GOT 表中了。

这样的跳转虽然麻烦,但有一个非常重要的优点,就是运行期间不会修改代码段的指令,所有的修改只涉及了 GOT 这个位于数据段的表里。.code 和.plt 会被加载到内存的代码段 (code segment),它的权限是可读可执行,但不可写;.got 会被加载进数据段,它的权限是可读可写。我们现在介绍的多级跳转的延迟绑定技术的整个重定位过程最终只会修改 GOT 的 0x18 这一个位置,其他位置都不必发生变化。

当执行完了重定位过程以后,CPU 再一次运行到 main 里的 call 指令时,就能通过一次跳转就调用到真正的 B 函数了,这时的 GOT 已经与上节课所讲的加载时重定位后的 GOT 一模一样了。如图所示:
在这里插入图片描述
在这个图里,重定位完以后,只有红色字体的代码和数据是起作用的。只有用到的符号才会被重定位,这就是延迟绑定技术。未被用到的符号在加载时被重定位,这是一种浪费,而延迟绑定技术避免了这种浪费。

3.4 示例

接下来,我们详细看看延迟绑定的具体执行过程。
在这里插入图片描述
sum 函数的初次调用过程可以分为四步:
(1)程序通过 call 指令,调用对应于 sum 函数的 PLT 表项中的代码;
(2)该表项中的第一行代码(位于 0x400560)会通过 .got.plt 的第四个表项中的值进行间接跳转。该表项对应于函数 sum 的真实地址,但在第一次访问时,其值为对应 PLT 表项中第二条指令的地址(即 0x400566);
(3)push 指令(位于 0x400566)将 sum 函数的 ID 压入栈中。通过 jmp 指令(位于 0x40056b),程序跳转到 PLT[0];
(4)push 指令(位于 0x400550)将 GOT[1] 中存放的模块描述符 ID 压入栈中,然后通过 jmp 指令(位于 0x400556)跳转到 GOT[2] 中存放的 _dl_runtime_resolve 函数的所在地址。该函数会使用当前存放于栈上的两个参数,来完成 sum 函数在 GOT 中的重定位。最后,它会将执行流程重新转移至 sum 函数内部。

至此,sum 函数的第一次执行便结束了。而在经过上述这一系列步骤后,sum 函数在整个进程 VAS 中的真实地址,便已经被更新到了对应的 GOT 表项中。因此,当它被再次访问时,程序仅通过以下这两个步骤便可完成调用:
(1)程序通过 call 指令调用 sum 函数对应 PLT 表项中的第一行代码(位于 0x400560);
(2)该行 jmp 指令通过 sum 函数在 GOT 对应表项中已经修正的地址,间接跳转到该函数的第一行代码。

运行时动态链接的原理:就是把.so中的函数的地址填写到.got.plt表项中即可。

四、demo演示

实验平台:

# cat /etc/os-release
NAME="CentOS Linux"
VERSION="7 (Core)"

# gcc -v
Target: x86_64-redhat-linux
Thread model: posix
gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC)
# cat fput.c
#include <stdio.h>

int main() {
    char str[] = "Hello, World!\n";

    fputs(str, stdout);

    return 0;
}
# gdb -q fput
Reading symbols from /test/fput...done.
(gdb) disassemble main
Dump of assembler code for function main:
   0x000000000040055d <+0>:     push   %rbp
   0x000000000040055e <+1>:     mov    %rsp,%rbp
   0x0000000000400561 <+4>:     sub    $0x10,%rsp
   0x0000000000400565 <+8>:     movabs $0x57202c6f6c6c6548,%rax
   0x000000000040056f <+18>:    mov    %rax,-0x10(%rbp)
   0x0000000000400573 <+22>:    movl   $0x646c726f,-0x8(%rbp)
   0x000000000040057a <+29>:    movw   $0xa21,-0x4(%rbp)
   0x0000000000400580 <+35>:    movb   $0x0,-0x2(%rbp)
   0x0000000000400584 <+39>:    mov    0x200aa5(%rip),%rdx        # 0x601030 <stdout@@GLIBC_2.2.5>
   0x000000000040058b <+46>:    lea    -0x10(%rbp),%rax
   0x000000000040058f <+50>:    mov    %rdx,%rsi
   0x0000000000400592 <+53>:    mov    %rax,%rdi
   0x0000000000400595 <+56>:    callq  0x400440 <fputs@plt>
   0x000000000040059a <+61>:    mov    $0x0,%eax
   0x000000000040059f <+66>:    leaveq
   0x00000000004005a0 <+67>:    retq
End of assembler dump.
(gdb) b *0x400440
Breakpoint 1 at 0x400440
(gdb) run
Starting program: /test/fput

用 disass main 获取到 call fputs的地址并用 b *0x400440 跳到目标函数:

(gdb) disassemble
Dump of assembler code for function fputs@plt:
=> 0x0000000000400440 <+0>:     jmpq   *0x200bd2(%rip)        # 0x601018
   0x0000000000400446 <+6>:     pushq  $0x0
   0x000000000040044b <+11>:    jmpq   0x400430
End of assembler dump.

这里就是对应plt[1] — fputs@plt 的三条指令:

由前文可以知道当程序第一次调用在fputs函数,fputs@plt 的第一步是去 .got.plt 找地址,这里 0x601018 则是对应的GOT[3]。但是这里是第一次调用fputs函数,因此GOT[3]存放的是对应plt[1]条目的第二条指令,而不是fputs函数的地址,就是0x400446:

(gdb) x/2x 0x601018
0x601018:       0x00400446      0x00000000

因此执行plt[1]第一条指令后,到GOT[3],然后又回到plt[1]的第二条指令:

(gdb) si
0x0000000000400446 in fputs@plt ()
(gdb) disassemble
Dump of assembler code for function fputs@plt:
   0x0000000000400440 <+0>:     jmpq   *0x200bd2(%rip)        # 0x601018
=> 0x0000000000400446 <+6>:     pushq  $0x0
   0x000000000040044b <+11>:    jmpq   0x400430
End of assembler dump.
(gdb) si
0x000000000040044b in fputs@plt ()
(gdb) disassemble
Dump of assembler code for function fputs@plt:
   0x0000000000400440 <+0>:     jmpq   *0x200bd2(%rip)        # 0x601018
   0x0000000000400446 <+6>:     pushq  $0x0
=> 0x000000000040044b <+11>:    jmpq   0x400430
End of assembler dump.

第三条指令跳转的 <.plt> section的其实地址 就 PLT[0]。jmp 到 PLT[0] 的表项中进行执行;

Disassembly of section .plt:

0000000000400430 <.plt>:
  400430:       ff 35 d2 0b 20 00       pushq  0x200bd2(%rip)        # 601008 <_GLOBAL_OFFSET_TABLE_+0x8>
  400436:       ff 25 d4 0b 20 00       jmpq   *0x200bd4(%rip)        # 601010 <_GLOBAL_OFFSET_TABLE_+0x10>
  40043c:       0f 1f 40 00             nopl   0x0(%rax)
(gdb) x/3i 0x400430
   0x400430:    pushq  0x200bd2(%rip)        # 0x601008
   0x400436:    jmpq   *0x200bd4(%rip)        # 0x601010
   0x40043c:    nopl   0x0(%rax)

0x601008 就是 GOT[1],0x0x601010就是GOT[2]。在 PLT[0] 中,继续将 GOT.PLT[1] 的值也就是库文件的 ID 进行压栈,然后通过 GOT.PLT[2] 跳转到 动态链接器_dl_runtime_resolve 函数中;

(gdb) x/3i 0x400430
   0x400430:    pushq  0x200bd2(%rip)        # 0x601008
   0x400436:    jmpq   *0x200bd4(%rip)        # 0x601010
   0x40043c:    nopl   0x0(%rax)
(gdb) x/2xw 0x601010
0x601010:       0xf7df1950      0x00007fff
(gdb) info symbol 0x00007ffff7df1950
_dl_runtime_resolve_xsave in section .text of /lib64/ld-linux-x86-64.so.2

然后我们运行si指令到_dl_runtime_resolve_xsave函数:

0x0000000000400430 in ?? ()
(gdb) si
0x0000000000400436 in ?? ()
(gdb) si
0x00007ffff7df1950 in _dl_runtime_resolve_xsave () from /lib64/ld-linux-x86-64.so.2
(gdb) disassemble
Dump of assembler code for function _dl_runtime_resolve_xsave:
=> 0x00007ffff7df1950 <+0>:     push   %rbx
   0x00007ffff7df1951 <+1>:     mov    %rsp,%rbx
   0x00007ffff7df1954 <+4>:     and    $0xffffffffffffffc0,%rsp
   0x00007ffff7df1958 <+8>:     sub    0x20b351(%rip),%rsp        # 0x7ffff7ffccb0 <_rtld_local_ro+176>
   0x00007ffff7df195f <+15>:    mov    %rax,(%rsp)
   0x00007ffff7df1963 <+19>:    mov    %rcx,0x8(%rsp)
   0x00007ffff7df1968 <+24>:    mov    %rdx,0x10(%rsp)
   0x00007ffff7df196d <+29>:    mov    %rsi,0x18(%rsp)
   0x00007ffff7df1972 <+34>:    mov    %rdi,0x20(%rsp)
   0x00007ffff7df1977 <+39>:    mov    %r8,0x28(%rsp)
   0x00007ffff7df197c <+44>:    mov    %r9,0x30(%rsp)
   0x00007ffff7df1981 <+49>:    mov    $0xee,%eax
   0x00007ffff7df1986 <+54>:    xor    %edx,%edx
   0x00007ffff7df1988 <+56>:    mov    %rdx,0x240(%rsp)
   0x00007ffff7df1990 <+64>:    mov    %rdx,0x248(%rsp)
   0x00007ffff7df1998 <+72>:    mov    %rdx,0x250(%rsp)
   0x00007ffff7df19a0 <+80>:    mov    %rdx,0x258(%rsp)
   0x00007ffff7df19a8 <+88>:    mov    %rdx,0x260(%rsp)
   0x00007ffff7df19b0 <+96>:    mov    %rdx,0x268(%rsp)
   0x00007ffff7df19b8 <+104>:   mov    %rdx,0x270(%rsp)
   0x00007ffff7df19c0 <+112>:   mov    %rdx,0x278(%rsp)
   0x00007ffff7df19c8 <+120>:   xsave  0x40(%rsp)
   0x00007ffff7df19cd <+125>:   mov    0x10(%rbx),%rsi
   0x00007ffff7df19d1 <+129>:   mov    0x8(%rbx),%rdi
   0x00007ffff7df19d5 <+133>:   callq  0x7ffff7de9d10 <_dl_fixup>
   0x00007ffff7df19da <+138>:   mov    %rax,%r11
   0x00007ffff7df19dd <+141>:   mov    $0xee,%eax
   0x00007ffff7df19e2 <+146>:   xor    %edx,%edx
   0x00007ffff7df19e4 <+148>:   xrstor 0x40(%rsp)
   0x00007ffff7df19e9 <+153>:   mov    0x30(%rsp),%r9
   0x00007ffff7df19ee <+158>:   mov    0x28(%rsp),%r8
   0x00007ffff7df19f3 <+163>:   mov    0x20(%rsp),%rdi
   0x00007ffff7df19f8 <+168>:   mov    0x18(%rsp),%rsi
   0x00007ffff7df19fd <+173>:   mov    0x10(%rsp),%rdx
   0x00007ffff7df1a02 <+178>:   mov    0x8(%rsp),%rcx
   0x00007ffff7df1a07 <+183>:   mov    (%rsp),%rax
   0x00007ffff7df1a0b <+187>:   mov    %rbx,%rsp
   0x00007ffff7df1a0e <+190>:   mov    (%rsp),%rbx
   0x00007ffff7df1a12 <+194>:   add    $0x18,%rsp
   0x00007ffff7df1a16 <+198>:   bnd jmpq *%r11
End of assembler dump.

_dl_runtime_resolve_xsave函数去获取fputs函数地址:

(gdb) b *0x00007ffff7df1a16
Breakpoint 2 at 0x7ffff7df1a16
(gdb) c
Continuing.

Breakpoint 2, 0x00007ffff7df1a16 in _dl_runtime_resolve_xsave () from /lib64/ld-linux-x86-64.so.2
(gdb) si
0x00007ffff7a7bf10 in fputs () from /lib64/libc.so.6
(gdb) disassemble
Dump of assembler code for function fputs:
=> 0x00007ffff7a7bf10 <+0>:     push   %r13
   0x00007ffff7a7bf12 <+2>:     push   %r12
   0x00007ffff7a7bf14 <+4>:     push   %rbp
   0x00007ffff7a7bf15 <+5>:     mov    %rdi,%rbp
   0x00007ffff7a7bf18 <+8>:     push   %rbx
   0x00007ffff7a7bf19 <+9>:     mov    %rsi,%rbx
   0x00007ffff7a7bf1c <+12>:    sub    $0x8,%rsp
   ......

输入 finish 跳出 puts 函数:

(gdb) finish
Run till exit from #0  0x00007ffff7a7bf10 in fputs () from /lib64/libc.so.6
Hello, World!
main () at fput.c:8
8           return 0;
(gdb) disassemble
Dump of assembler code for function main:
   0x000000000040055d <+0>:     push   %rbp
   0x000000000040055e <+1>:     mov    %rsp,%rbp
   0x0000000000400561 <+4>:     sub    $0x10,%rsp
   0x0000000000400565 <+8>:     movabs $0x57202c6f6c6c6548,%rax
   0x000000000040056f <+18>:    mov    %rax,-0x10(%rbp)
   0x0000000000400573 <+22>:    movl   $0x646c726f,-0x8(%rbp)
   0x000000000040057a <+29>:    movw   $0xa21,-0x4(%rbp)
   0x0000000000400580 <+35>:    movb   $0x0,-0x2(%rbp)
   0x0000000000400584 <+39>:    mov    0x200aa5(%rip),%rdx        # 0x601030 <stdout@@GLIBC_2.2.5>
   0x000000000040058b <+46>:    lea    -0x10(%rbp),%rax
   0x000000000040058f <+50>:    mov    %rdx,%rsi
   0x0000000000400592 <+53>:    mov    %rax,%rdi
   0x0000000000400595 <+56>:    callq  0x400440 <fputs@plt>
=> 0x000000000040059a <+61>:    mov    $0x0,%eax
   0x000000000040059f <+66>:    leaveq
   0x00000000004005a0 <+67>:    retq
End of assembler dump.

这个时候我们再看 0x601018(fputs@plt 的第一条指令) 这个里面的值:

(gdb) disassemble 0x400440
Dump of assembler code for function fputs@plt:
   0x0000000000400440 <+0>:     jmpq   *0x200bd2(%rip)        # 0x601018
   0x0000000000400446 <+6>:     pushq  $0x0
   0x000000000040044b <+11>:    jmpq   0x400430
End of assembler dump.
(gdb) x/2wx 0x601018
0x601018:       0xf7a7bf10      0x00007fff
(gdb) info symbol 0x00007ffff7a7bf10
fputs in section .text of /lib64/libc.so.6

可以看到GOT[3]第一指令的跳转地址已经是fputs函数的地址了。

第一次调用动态库时,GOT[3]的地址是PLT[1]第二条指令的地址。
调用完后,GOT[3]的地址就是fputs函数的地址了。

再回顾一下延迟绑定的整个过程:
(1)当 main 函数想要调用 fputs 的时候,程序调用先进入 fputs@plt 中;
(2)在 fputs@plt 中,会先执行 jmpq *GOT.PLT[3] ,此时 GOT.PLT[3] 里存放的是 fputs@plt 项中的第二条指令,因此控制流继续返回到 fputs@plt 中进行执行;
(3)接下会把数值 0x0 进行压栈,这个数值代表了 fputs 的 ID。然后 jmp 到 PLT[0] 的表项中进行执行;
(4)在 PLT[0] 中,继续将 GOT.PLT[1] 的值也就是库文件的 ID 进行压栈,然后通过 GOT.PLT[2] 跳转到 _dl_runtime_resolve 函数中;
(5)_dl_runtime_resolve 则根据存在栈上的函数 ID 和 so 的 ID 进行全局搜索,找到对应的函数地址之后就可以将其重新填充到 GOT.PLT[3] 中,这个时候延迟加载的整个过程就完成了;
(6)当下一次调用 fputs的时候,CPU 就可以通过 fputs@plt 中第一条指令 jmpq *GOT.PLT[3] 直接跳转到 fputs的真实地址中。

五、延迟绑定技术和代码修补

动态库的函数编译器是无法预测这个函数的地址,因为定义的动态库可以程序运行时加载到任意位置。

除了上述的延时绑定GOT获取动态库函数的地址,还可以在运行时进行代码修补(patch code),链接器修改调用模块的代码段。

patch code 显然也是一种延迟绑定的技术,但是它要在运行时修改指令参数,这会带来风险。所以动态库的延迟绑定选择了继续使用 GOT 表来进行间接调用,然后 patch 的对象就不再是指令了,而是 GOT 中的一项。

动态库的延迟绑定选择了继续使用 GOT 表就是运行期间不会修改代码段的指令,所有的修改只涉及了 GOT 这个位于数据段的表里。.code 和.plt 会被加载到内存的代码段 (code segment),它的权限是可读可执行,但不可写;.got 会被加载进数据段,它的权限是可读可写。多级跳转的延迟绑定技术的整个重定位过程最终只会修改 GOT 表的一个位置,其他位置都不必发生变化。

延迟绑定 + PLT + GOT:运行时修改数据段的GOT表。
代码修补:运行时修改代码段。

参考资料

计算机系统篇之链接(14):.plt、.plt.got、.got 和 .got.plt sections 之间的区别

;