学过编程都知道,在所有高级编程语言中,C是运行最高效的语言, 一个重要原因是C语言是静态型语言,会直接被编译成机器码,然后被计算机直接运行。和大部分人一样,做对C语言编译之后的运行方式的充满了好奇,主要包括一下几个方面:
可执行程序是什么,里面只是包括一大堆机器码吗?
C语言中定义变量, 常量, 函数等等,在内存中是如何分布的,它们之间是靠什么相互访问的?
计算机当中,同时运行的进程非常多,每个进程都占用内存空间,程序编译的时候,如何知道自己运行时将要被加载到哪里,又如何被CPU执行?
下面是一段简单的C程序:
#include <stdio.h> int a = 10; int main(){ printf("The a is %d\n",a); return 0; }
用gcc编译, 运行会打印出”The a is 10″,这就是一个可执行文件,查资料得知linux下可执行文件为elf格式他有三种不同的类型:可重定位的目标文件、可执行文件和共享库。用readelf工具查看次文件的头信息:
[root@hitoy ~]# readelf -h a.out
ELF Header:
Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00
Class: ELF32
Data: 2’s complement, little endian
Version: 1 (current)
OS/ABI: UNIX – System V
ABI Version: 0
Type: EXEC (Executable file)
Machine: Intel 80386
Version: 0x1
Entry point address: 0x8048310
Start of program headers: 52 (bytes into file)
Start of section headers: 1980 (bytes into file)
Flags: 0x0
Size of this header: 52 (bytes)
Size of program headers: 32 (bytes)
Number of program headers: 8
Size of section headers: 40 (bytes)
Number of section headers: 30
Section header string table index: 27
所以可以得出结论,可执行文件存放的不只是可执行的机器码,还包括其它一些说明和帮助程序运行的信息,linux下一个可执行的elf文件的结构如下:
ELF Header描述了体系结构和操作系统等基本信息,并指出Section Header Table和Program Header Table在文件中的什么位置, Program Header Table记录文件里segment的分布,segment里存放的是各个数据段(section)。Section Header Table中保存了所有Section的描述信息,通过Section Header Table可以找到每个Section在文件中的位置。在上面的ELF Header中,有一个入口地址(Entry point address),当程序运行时,CPU从这里开始执行,程序中不仅仅保存有入口地址,程序中的其它数据在编译之后都有一个确切的地址,这样CPU就可以访问了。
那么问题又来了,程序在编译的时候,并不确定自己将要在哪里运行,运行的环境可能还各不一样,例如有些计算机只有512MB内存,有些可达到4G,里面的地址管用吗?而且我们注意到,里面的地址都是线性连续的,内存刚好能分配这样一段空间?把上面的C程序中全局变量a的值改成11,重新编译,发现执行的入口地址和原来的一样!
实际上操作系统主要的功能之一就是内存管理, 现代操作系统普遍采用虚拟内存管理(Virtual Memory Management)机制,这需要处理器中的MMU(Memory Management Unit,内存管理单元)提供支持, 有了MMU的支持,内存地址可以划分为虚拟地址和物理地址, 当存在MMU支持时,CPU所有的寻址操作都会由MMU翻译成实际的物理地址,然后操作实际的内存。有了MMU,就可以保证程序中的地址连续,而不用关心实际数据在内存里的存放位置了, 也解释了为什么不一样的程序入口地址是一样的。
那么对于不同配置的计算机,多个程序同时执行时,这些地址够用吗?通常操作系统把虚拟地址空间划分为用户空间和内核空间, 对于同样的平台,它们的大小通常是确定了的, 例如x86平台的Linux系统虚拟地址空间是0x00000000~0xffffffff,前3GB(0x00000000~0xbfffffff)是用户空间,后1GB(0xc0000000~0xffffffff)是内核空间。也就是说不论你的x86机器内存是多少,对于一个程序来说,它的地址空间可以为3G,操作系统会根据内存的使用情况,进行动态管理。