古语有云:工欲善其事,必先利其器!在进入Linux内核的真正学习之前,我们需要一些准备工作,因为只有达到了一定的知识储备要求,才能事半功倍。
对于一个内核初学者来说,经常遇到:保护模式,分段机制,分页机制,线性地址,中断门,局部描述符等名词,任何一个复杂的设计都是由一个简单的设计发展起来的,当简单的设计满足不了实际需求时,就会一步步革新,一个个新的、复杂的概念应运而生。因此,个人认为要理解一个复杂问题的最好方法不是强行记住它,而是从简单入手,一步步推敲,最终会积水成渊。有人会说:我只是吃个苹果,没必要知道苹果是树上结的还是地下种的。那么,如果你是卖苹果的呢?长话短说,废话不说,下面我们进入正题:
一、80X86寄存器
32位CPU所含有的寄存器有:
4个数据寄存器(EAX、EBX、ECX和EDX)
2个变址和指针寄存器(ESI和EDI) 2个指针寄存器(ESP和EBP)
6个段寄存器(ES、CS、SS、DS、FS和GS)
1个指令指针寄存器(EIP) 1个标志寄存器(EFlags)
下面对这些寄存器进行一一介绍:
1、数据寄存器
数据寄存器主要用来保存操作数和运算结果等信息,从而节省读取操作数所需占用总线和访问存储器的时间。32位CPU有4个32位的通用寄存器EAX、EBX、ECX和EDX。对低16位数据的存取,不会影响高16位的数据。这些低16位寄存器分别命名为:AX、BX、CX和DX,它和先前的CPU中的寄存器相一致。4个16位寄存器又可分割成8个独立的8位寄存器(AX:AH-AL、BX:BH-BL、CX:CH-CL、DX:DH-DL),每个寄存器都有自己的名称,可独立存取。程序员可利用数据寄存器的这种“可分可合”的特性,灵活地处理字/字节的信息。
AX和AL通常称为累加器(Accumulator):可用于乘、除、输入/输出等操作(在乘除指令中指定用来存放操作数)
BX称为基地址寄存器(Base Register):在计算存储器地址时,可作为基址寄存器使用。
CX称为计数寄存器(Count Register):用来保存计数值,如在移位指令、循环指令和串处理指令中用作隐含的计数器(当移多位时,要用CL来指明移位的位数)。
DX在作双字长运算时,可把DX和AX组合在一起存放一个双字长数,DX用来存放高16位数据。此外,对某些I/O操作,DX可用来存放I/O的端口地址。DX称为数据寄存器(Data Register)。在进行乘、除运算时,它可作为默认的操作数参与运算,也可用于存放I/O的端口地址。
在16位CPU中,AX、BX、CX和DX不能作为基址和变址寄存器来存放存储单元的地址,但在32位CPU中,其32位寄存器EAX、EBX、ECX和EDX不仅可传送数据、暂存数据保存算术逻辑运算结果,而且也可作为指针寄存器,所以,这些32位寄存器更具有通用性。
2、变址寄存器
32位CPU有2个32位通用寄存器ESI和EDI。其低16位对应先前CPU中的SI和DI,对低16位数据的存取,不影响高16位的数据。寄存器ESI、EDI、SI和DI称为变址寄存器(Index Register),它们主要用于存放存储单元在段内的偏移量,用它们可实现多种存储器操作数的寻址方式,为以不同的地址形式访问存储单元提供方便。变址寄存器不可分割成8位寄存器。作为通用寄存器,也可存储算术逻辑运算的操作数和运算结果。它们可作一般的存储器指针使用。在字符串操作指令的执行过程中,对它们有特定的要求,而且还具有特殊的功能。
3、指针寄存器
32位CPU有2个32位通用寄存器EBP和ESP。其低16位对应先前CPU中的SBP和SP,对低16位数据的存取,不影响高16位的数据。
寄存器EBP、ESP、BP和SP称为指针寄存器(Pointer Register),主要用于存放堆栈内存储单元的偏移量,用它们可实现多种存储器操作数的寻址方式,为以不同的地址形式访问存储单元提供方便。指针寄存器不可分割成8位寄存器。作为通用寄存器,也可存储算术逻辑运算的操作数和运算结果。
它们主要用于访问堆栈内的存储单元,并且规定:
BP为基指针(Base Pointer)寄存器,用它可直接存取堆栈中的数据;
SP为堆栈指针(Stack Pointer)寄存器,用它只可访问栈顶。
4、段寄存器
段寄存器是根据内存分段的管理模式而设置的。内存单元的物理地址由段寄存器的值和一个偏移量组合而成的,这样可用两个较少位数的值组合成一个可访问较大物理空间的内存地址。
CPU内部的段寄存器:
CS——代码段寄存器(Code Segment Register),其值为代码段的段值;
DS——数据段寄存器(Data Segment Register),其值为数据段的段值;
ES——附加段寄存器(Extra Segment Register),其值为附加数据段的段值;
SS——堆栈段寄存器(Stack Segment Register),其值为堆栈段的段值;
FS——附加段寄存器(Extra Segment Register),其值为附加数据段的段值;
GS——附加段寄存器(Extra Segment Register),其值为附加数据段的段值。
在16位CPU系统中,它只有4个段寄存器,所以,程序在任何时刻至多有4个正在使用的段可直接访问;在32位微机系统中,它有6个段寄存器,所以,在此环境下开发的程序最多可同时访问6个段。
32位CPU有两个不同的工作模式:实模式和保护模式。在每种模式下,段寄存器的作用是不同的。有关规定简单描述如下:
实模式: 前4个段寄存器CS、DS、ES和SS与先前CPU中的所对应的段寄存器的含义完全一致,内存单元的逻辑地址仍为“段值:偏移量”的形式。为访问某内存段内的数据,必须使用该段寄存器和存储单元的偏移量。
保护模式: 在此模式下,情况要复杂得多,装入段寄存器的不再是段值,而是称为“选择子”(Selector)的某个值。
5、指令指针寄存器
32位CPU把指令指针扩展到32位,并记作EIP,EIP的低16位与先前CPU中的IP作用相同。指令指针EIP、IP(Instruction Pointer)是存放下次将要执行的指令在代码段的偏移量。在具有预取指令功能的系统中,下次要执行的指令通常已被预取到指令队列中,除非发生转移情况。所以,在理解它们的功能时,不考虑存在指令队列的情况。在实方式下,由于每个段的最大范围为64K,所以,EIP中的高16位肯定都为0,此时,相当于只用其低16位的IP来反映程序中指令的执行次序。
6、标志寄存器
6.1 运算结果标志位
6.1.1 进位标志CF(Carry Flag)
进位标志CF主要用来反映运算是否产生进位或借位。如果运算结果的最高位产生了一个进位或借位,那么,其值为1,否则其值为0。使用该标志位的情况有:多字(字节)数的加减运算,无符号数的大小比较运算,移位操作,字(字节)之间移位,专门改变CF值的指令等。
6.1.2 奇偶标志PF(Parity Flag)
奇偶标志PF用于反映运算结果中“1”的个数的奇偶性。如果“1”的个数为偶数,则PF的值为1,否则其值为0。利用PF可进行奇偶校验检查,或产生奇偶校验位。在数据传送过程中,为了提供传送的可靠性,如果采用奇偶校验的方法,就可使用该标志位。
6.1.3 辅助进位标志AF(Auxiliary Carry Flag)
在发生下列情况时,辅助进位标志AF的值被置为1,否则其值为0:
(1)、在字操作时,发生低字节向高字节进位或借位时;
(2)、在字节操作时,发生低4位向高4位进位或借位时。
对以上6个运算结果标志位,在一般编程情况下,标志位CF、ZF、SF和OF的使用频率较高,而标志位PF和AF的使用频率较低。
6.1.4 零标志ZF(Zero Flag)
零标志ZF用来反映运算结果是否为0。如果运算结果为0,则其值为1,否则其值为0。在判断运算结果是否为0时,可使用此标志位。
6.1.5 符号标志SF(Sign Flag)
符号标志SF用来反映运算结果的符号位,它与运算结果的最高位相同。在微机系统中,有符号数采用补码表示法,所以,SF也就反映运算结果的正负号。运算结果为正数时,SF的值为0,否则其值为1。
6.1.6 溢出标志OF(Overflow Flag)
溢出标志OF用于反映有符号数加减运算所得结果是否溢出。如果运算结果超过当前运算位数所能表示的范围,则称为溢出,OF的值被置为1,否则,OF的值被清为0。
6.2 状态控制标志位
状态控制标志位是用来控制CPU操作的,它们要通过专门的指令才能使之发生改变。
6.2.1 追踪标志TF(Trap Flag)
当追踪标志TF被置为1时,CPU进入单步执行方式,即每执行一条指令,产生一个单步中断请求。这种方式主要用于程序的调试。指令系统中没有专门的指令来改变标志位TF的值,但程序员可用其它办法来改变其值。
6.2.2 中断允许标志IF(Interrupt-enable Flag)
中断允许标志IF是用来决定CPU是否响应CPU外部的可屏蔽中断发出的中断请求。但不管该标志为何值,CPU都必须响应CPU外部的不可屏蔽中断所发出的中断请求,以及CPU内部产生的中断请求。具体规定如下:
(1)、当IF=1时,CPU可以响应CPU外部的可屏蔽中断发出的中断请求;
(2)、当IF=0时,CPU不响应CPU外部的可屏蔽中断发出的中断请求。
CPU的指令系统中也有专门的指令来改变标志位IF的值。
6.2.3 方向标志DF(Direction Flag)
方向标志DF用来决定在串操作指令执行时有关指针寄存器发生调整的方向
6.3 32位标志寄存器增加的标志位
6.3.1 I/O特权标志IOPL(I/O Privilege Level)
I/O特权标志用两位二进制位来表示,也称为I/O特权级字段。该字段指定了要求执行I/O指令的特权级。如果当前的特权级别在数值上小于等于IOPL的值,那么,该I/O指令可执行,否则将发生一个保护异常。
6.3.2 嵌套任务标志NT(Nested Task)
嵌套任务标志NT用来控制中断返回指令IRET的执行。具体规定如下:
(1)、当NT=0,用堆栈中保存的值恢复EFLAGS、CS和EIP,执行常规的中断返回操作;
(2)、当NT=1,通过任务转换实现中断返回。
6.3.3 重启动标志RF(Restart Flag)
重启动标志RF用来控制是否接受调试故障。规定:RF=0时,表示“接受”调试故障,否则拒绝之。在成功执行完一条指令后,处理机把RF置为0,当接受到一个非调试故障时,处理机就把它置为1
6.3.4 虚拟8086方式标志VM(Virtual 8086 Mode)
如果该标志的值为1,则表示处理机处于虚拟的8086方式下的工作状态,否则,处理机处于一般保护方式下的工作状态。
二、汇编语言
任何一个操作系统的源代码中都少不了汇编语言,由于目前教学大都在Windows平台上进行,因此大家一般较熟悉的是Intel的汇编语法,但在Linux内核代码中使用的却是AT&T的汇编。AT&T汇编与Intel汇编有几点不同:
1)前缀:Intel汇编语法中,寄存器和立即数没有前缀,但AT&T汇编语法中,寄存器前缀为“%”,立即数前缀为“$”
例:
INTEL AT&T
MOV EAX,1 movl $1,%eax
2)操作数方向:两种汇编操作数方向正好相反,Intel汇编中第一个操作数为目的操作数,第二个为源操作数;而AT&T中第一个为源操作数,第二个为目的操作数
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
3)操作数位宽:Intel汇编中,由特定字符指定操作数位宽,如用“BYTE PTR”,“WORD PTR”来表示;AT&T中,有操作码最后一个字符来指定操作数位宽
例:
INTEL AT&T
mov al, bl movb %bl,%al
mov ax,bx movw %bx,%ax
mov eax, dword ptr movl (%ebx), %eax
4)间接寻址方式:INTEL 中基地址使用“[”、“] ”,而在AT&T 中使用“(”、“) ”;另外处理复杂操作数的 语法也不同, INTEL 为Segreg:[base+index*scale+disp],而在AT&T 中为 %segreg:disp(base,index,sale),其中segreg,index,scale,disp都是可选的,在指定 index而没有显式指定Scale的情况下使用默认值1。Scale和disp不需要加前缀“&”
例:
INTEL AT&T
Instr instr
foo,segreg:[base+index*scale+disp] %segreg:disp(base,index,scale),foo
5)大小写:Intel格式的指令使用大写字母,而AT&T格式的使用小写字母
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
6)指令: Intel汇编与AT&T汇编指令基本相同,差别仅在语法上。关于每条指令的语法在此不再赘述,具体可参考技术手册
三、Makefile
当我们拿到上百M的内核代码时,往往会手足无措,不知从何看起。这时,一些有经验的朋友可能会给你如下建议:从makefile看起!
那么,什么是makefile?或许很多Winodws的程序员都不知道这个东西,因为那些Windows的IDE都为你做了这个工作,有些计算机学习者(当然只是极少数)只会用某一种开发软件,如VS,Eclipse或更老一些的VC等,每次编好程序之后点一下某个按钮(比如绿色三角形的按钮,大家懂的)就OK了,但后台究竟如何工作却不知所以然。窃以为,要做一个好的和professional的程序员,makefile可以不精通,但还是要懂的。
具体makefile语法与用法,网上有很多资料可以查,以后也会发博详细谈到,这里不再赘述!
以上只是蜻蜓点水,不过由于内核涉及到的知识面非常广泛,所以建议对程序编译、连接、装载的细节,操作系统理论,计算机系统体系结构,数据结构与算法等都有一定的涉猎。呃,当然C和汇编是必须要掌握滴,拿到一本武功秘籍,至少要先识字吧。