1、理解文件
1.1 狭义理解
- 文件在磁盘里
- 磁盘是永久性存储介质,因此文件在磁盘上的存储是永久性的
- 磁盘是外设(即是输出设备也是输入设备)
- 对磁盘上所有文件的操作本质都是对外设的输入和输出,简称IO
1.2 广义理解
- Linux下一切皆文件(键盘、显示器、网卡、磁盘……这些都是抽象化的过程)。
1.3 文件操作
- 对于OKB的空文件是占用磁盘空间的
- 文件 = 文件属性 + 文件内容
- 所有的文件操作本质是文件内容操作和文件属性操作
1.4 系统角度
- 对文件的操作本质是进程对文件的操作
- 磁盘的管理者是操作系统
- 文件的读写本质不是通过C/C++的库函数来操作的(这些库函数只是为用户提供方便),而是通过文件相关的系统调用接口来实现的
2、系统文件IO
2.1 文件相关操作
C语言中文件操作,在操作一个文件之前我们首先要打开它,那么在学了一段时间操作系统后,你知道在操作一个文件之前为什么要先打开吗?
文件存储在磁盘上,CPU执行进程访问文件,而CPU不能直接访问磁盘,所以对于存储在磁盘上的文件如果要被进程访问,首先应该加载到内存中,所以打开文件的过程就是将文件从磁盘加载到内存。
以“w”方式打开文件,这个文件首先被清空然后再写入,也就是如果我们只打开文件但不写入就直接关闭,这个文件就会被清空。
前面我们学习过输出重定向操作符“>”,> file
:也是先打开文件然后才操作,如果文件不存在则创建,如果文件存在则清空。
在学习C语言文件操作的时候我们就知道,任何一个程序在启动的时候默认要打开三个文件流stdin
、stdout
、stderr
,C++中也有cin
、cout
、cerr
,其他语言也会支持类似的特性,那么是谁打开呢?通过前面的学习不难推测出是进程默认会打开三个输入输出流。
下面是几种往显示器上输出的方式:
我们所用的C文件接口,底层一定是封装对应的文件类系统调用,C库函数有:fopen
、fclose
、fwrite
、fread
,对应系统调用接口有:open
、close
、write
、read
。其中fopen
底层封装的是系统调用接口open
,fclose
封装的是close
等。
通过一个参数可以传递多个信息:
#include <stdio.h>
#define ONE (1<<0)
#define TWO (1<<1)
#define THREE (1<<2)
#define FOUR (1<<3)
#define FIVE (1<<4)
void test(int flags)
{
if (flags & ONE)
{
printf("one\n");
}
if (flags & TWO)
{
printf("two\n");
}
if (flags & THREE)
{
printf("three\n");
}
if (flags & FOUR)
{
printf("four\n");
}
if (flags & FIVE)
{
printf("five\n");
}
}
int main()
{
test(ONE);
printf("\n");
test(ONE | TWO);
printf("\n");
test(ONE | TWO | THREE);
printf("\n");
test(ONE | TWO | THREE | FOUR);
printf("\n");
test(ONE | TWO | THREE | FOUR | FIVE);
printf("\n");
return 0;
}
open选项:
简单touch
命令:
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
int main(int argc, char *argv[])
{
open(argv[1], O_CREAT | O_WRONLY, 0666);
return 0;
}
2.2 文件描述符
open返回值(文件描述符):
从上面的测试中可以看到,默认打开几个文件,文件描述符为什么从3开始呢?
其中的原因文章开头就已经提到过,因为一个程序在启动前默认会打开三个文件流stdin
、stdout
、stderr
,怎么证明这件事呢?
yjz@hcss-ecs-8f13:~/linux/text_4.11.15$ ./filecode
hello world
hello world
Are you ok?
yjz@hcss-ecs-8f13:~/linux/text_4.11.15$ cat filecode.c
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <string.h>
int main()
{
char buffer[100];
ssize_t s = read(0, buffer, sizeof(buffer));
if (s > 0) //实际读到的字节大小
{
buffer[s - 1] = 0;
printf("%s\n", buffer);
}
const char *str = "Are you ok?\n";
ssize_t w = write(1, str, strlen(str));
return 0;
}
可以看出stdin
文件流的文件描述符是0, stdout
文件流的文件描述符是1。
通过上面的草图,所以fd(文件描述符)究竟是什么呢?其实fd就是数组下标,我们通过这个下标来管理文件,在系统层面,fd是访问文件的唯一方式。
yjz@hcss-ecs-8f13:~/linux/text_4.11.15$ make
gcc -o filecode filecode.c
yjz@hcss-ecs-8f13:~/linux/text_4.11.15$ ./filecode
stdin : 0
stdout : 1
stderr : 2
pf : 3
yjz@hcss-ecs-8f13:~/linux/text_4.11.15$ cat filecode.c
#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <unistd.h>
#include <string.h>
int main()
{
printf("stdin : %d\n", stdin->_fileno);
printf("stdout : %d\n", stdout->_fileno);
printf("stderr : %d\n", stderr->_fileno);
FILE *pf = fopen("log.txt", "w");
printf("pf : %d\n", pf->_fileno);
return 0;
}
FILE
是C语言封装的一个文件流类型的结构体。
系统调用接口write
、read
已经能实现往显示器文件中读和写,为什么语言(以C语言为例)还要做封装呢?
如果我们想在显示器上打印整型1234,而显示器只认字符,所以我们就需要先把1234转换为4个字符,在通过write
写到显示器上,这样很麻烦,所以通过对write
封装,得到一个printf
函数,我们想打印任何类型都可以通过指定打印类型就可以完成打印,底层的复杂转换就不需要我们自己动手了。
进程打开文件,需要给文件分配新的fd,fd的分配规则是分配最小的、没有被使用的fd。
int main()
{
close(1);
int fd1 = open("log1.txt", O_CREAT | O_WRONLY | O_APPEND, 0666);
int fd2 = open("log2.txt", O_CREAT | O_WRONLY | O_APPEND, 0666);
int fd3 = open("log3.txt", O_CREAT | O_WRONLY | O_APPEND, 0666);
int fd4 = open("log4.txt", O_CREAT | O_WRONLY | O_APPEND, 0666);
printf("fd1 : %d\n", fd1);
printf("fd2 : %d\n", fd2);
printf("fd3 : %d\n", fd3);
printf("fd4 : %d\n", fd4);
fflush(stdout);
close(fd1);
close(fd2);
close(fd3);
close(fd4);
return 0;
}
2.3 重定向
printf
函数只认文件描述符fd,默认向显示器文件(fd为1)中写入,如果我们手动关闭显示器文件,再打开其他文件,则空的fd为1的这个位置就会分配给别的文件,所以printf
就会写入到这个文件中。
向上面这种改变file_struct
中文件指针的过程就是重定向的过程。
这是因为./mypipe
默认是向stdout
中写入,所以./mypipe > test.txt
只是改为向test.txt
中写入,而stderr
本身也是标准文件流,不会被重定向到test.txt
中。
那么这里就会有一个疑问,为什么C/C++标准输入是一个,而标准输出有两个呢?(stdout/stderr
、cout/cerr
)
注意:这里的2和>之间不可以有空格,2>在一起的时候才表示错误输出。
输出时可以将正确和错误的信息分离,方便我们做调式。
系统调用接口dup2
可以实现输出重定向:
int main()
{
int fd = open("log.txt", O_CREAT | O_WRONLY | O_TRUNC, 0666);
dup2(fd, 1);
printf("printf fd : %d\n", fd);
fprintf(stdout, "fprintf fd : %d\n", fd);
fputs("fputs fd\n", stdout);
const char *str = "fwrite fd\n";
fwrite(str, 1, strlen(str), stdout);
return 0;
}
对于stdout
来说它管只找fd为1的文件,本来fd为1的文件是显示器,通过dup2
系统调用将fd为1的位置分配给文件log.txt
,最终我们向stdout
中输出就输出到了文件log.txt
中。
dup2
可以实现输入重定向:
int main()
{
int fd = open("log.txt", O_RDONLY);
dup2(fd, 0);
char buffer[1024];
size_t r = read(0, buffer, sizeof(buffer));
if (r > 0)
{
buffer[r] = 0;
printf("stdin redir: \n%s\n", buffer);
}
return 0;
}
本来0对应的是键盘,通过dup2
重定向后从文件log.txt
中读取。
3、动静态库
如何给系统指定路径,查找自己的动态库?
- 拷贝到系统默认路径下,比如/lib64
- 在系统路径,建立软链接
- Linux系统中,OS查找动态库有默认路径,也存在一个环境变量
LD_LIBRARY_PATH
,通过这个路径去找 - ldconfig 配置/etc/ld.so.conf.d/, ldconfig更新
如果同时提供.so .a,gcc/g++默认使用动态库,如果要静态链接,带-static。
如果要强制静态链接,必须提供对应的静态库。
如果只提供静态库,但链接方式是动态链接,gcc/g++只能针对.a局部采用静态链接。
动态库连接原理:
可执行程序、库、.o文件都有特定的格式ELF。
链接就是将我们的一个个具有相同属性的section进行合并。
对于任何一个文件,文件的内容就是一个巨大的“一维数组”,标识文件任意一个区域,都可以用偏移量+大小的方式。
编辑器编译的时候,就已经形成虚拟地址了。
程序执行的时候,使用的是虚拟地址。
虚拟地址空间是OS、CPU、编译器共同协作的产物。
为什么要有虚拟地址和虚拟地址空间?
除了保护物理内存,做权限检查,让进程以统一的视角看物理内存,还有是编译器在编译代码的时候不用考虑物理内存的情况,统一使用虚拟地址,以线性的方式看待整个代码和数据,实现操作系统和编译器的解耦。
本篇文章的分享就到这里了,如果您觉得在本文有所收获,还请留下您的三连支持哦~