Linux的最大的用处之一就是它的源码公开。同时,公开的核心源码也吸引着无数的笔记本爱好者和程序员;她们把剖析和剖析Linux的核心源码作为自己的最通州趣,把更改Linux源码和改建Linux系统作为自己对计算机技术追求的最大目标。
Linux内核源码是很具吸引力的,非常是当你看懂了一个剖析了很久都没看懂的问题;或则是被你更改过了的内核,顺利通过编译,一切运行正常的时侯。那个成就感真是油但是生!并且,对内核的剖析,不仅出自对技术的狂热追求之外,这些令人生畏的劳动所带来的回报也是十分令人着迷的,这也正是它拥有诸多跟随者的主要缘由:
?首先,你可以从小学到好多的计算机的底层知识,如前面将提到的系统的引导和硬件提供的中断机制等;其它linux 内核 引导 文件系统,象虚拟储存的实现机制,多任务机制,系统
保护机制等等,这种都是非都源码不能感受的。
?同时,你还将从操作系统的整体结构中,感受整体设计在软件设计中的分量和作用,以及一些宏观设计的方式和方法:Linux的内核为下层应用提供一个与
具体硬件不相关的平台;同时在内核内部,它又把代码分为与体系结构和硬件
相关的部份,和可移植的部份;再比如,Linux其实不是微内核的,但他把大
部份的设备驱动处理成相对独立的内核模块,这样减少了内核运行的开支,增
强了内核代码的模块独立性。
?并且你能够从对内核源码的剖析中,感受到它在解决某个具体细节问题时,技巧的巧妙:如前面将剖析到了的Linux通过Botoom_half机制来推进系统对中
断的处理。
?最重要的是:在源码的剖析过程中,你将会被一点一点地、潜移默化地专业化。
一个专业的程序员,总是把代码的清晰性,兼容性,可移植性置于很重要的位
置。她们总是通过定义大量的宏,来提高代码的清晰度和可读性,而又不降低
编译后的代码宽度和代码的运行效率;她们总是在编码的同时,就考虑到了以
后的代码维护和升级。甚至,只要剖析百分之一的代码后,你还会深刻地体
会到,哪些样的代码才是一个专业的程序员写的,哪些样的代码是一个业余爱
好者写的。而这一点是任何没有真正剖析过标准代码的人都难以感受到的。
但是,因为内核代码的繁琐,和内核体系结构的繁杂,所以剖析内核也是一个很艰辛,很须要毅力的事;在缺少指导和交流的情况下,尤其这么。只有方式正确,就能事半功倍。
正是基于这些考虑,作者希望通过此文能给你们一些借鉴和启迪。
因为本人所进行的剖析都是基于2.2.5版本的内核;所以,假若没有非常说明,以下剖析都是基于i386单处理器的2.2.5版本的Linux内核。所有源文件均是相对于目录
/usr/src/linux的。
方式之一:从何入手
要剖析Linux内核源码,首先必须找到各个模块的位置,也即要读懂源码的文件组织方式。其实对于有经验的前辈而言,这个不是很难;但对于好多中级的Linux爱好者,和这些对源码剖析很有兴趣但接触不多的人来说,这还是很有必要的。
1、Linux核心源程序一般都安装在/usr/src/linux下linux嵌入式开发,但是它有一个特别简单的编号约定:任何质数的核心(的二个数为奇数,比如2.0.30)都是一个稳定地发行的核心,而任何质数的核心(比如2.1.42)都是一个开发中的核心。
2、核心源程序的文件按树状结构进行组织,在源程序树的最下层,即目录
/usr/src/linux下有这样一些目录和文件:
◆COPYING:GPL版权声明。对具有GPL版权的源代码改动而产生的程序,或使用GPL工具
形成的程序,具有使用GPL发表的义务,如公开源代码;
◆CREDITS:光荣榜。对Linux作出过很大贡献的一些人的信息;
◆MAINTAINERS:维护人员列表,对当前版本的内核各部份都有谁负责;
◆Makefile:第一个Makefile文件。拿来组织内核的各模块,记录了个模块间的互相这间的联系和依托关系,编译时使用;仔细阅读各子目录下的Makefile文件对弄清各个文件这
间的联系和依托关系很有帮助;
◆ReadMe:核心及其编译配置方式简单介绍;
◆Rules.make:各类Makefilemake所使用的一些共同规则;
◆REPORTING-BUGS:有关报告Bug的一些内容;
●Arch/:arch子目录包括了所有和体系结构相关的核心代码。它的每一个子目录都代表一种支持的体系结构,比如i386就是关于intelcpu及与之相兼容体系结构的子目录。PC
机通常都基于此目录;
●Include/:include子目录包括编译核心所须要的大部份头文件。与平台无关的头文件在include/linux子目录下,与intelcpu相关的头文件在include/asm-i386子目录下,
而include/scsi目录则是有关scsi设备的头文件目录;
●Init/:这个目录包含核心的初始化代码(注:不是系统的引导代码),包含两个文件
main.c和Version.c,这是研究核心怎样工作的好的起点之一。
●Mm/:这个目录包括所有独立于cpu体系结构的显存管理代码,如页式储存管理显存的
分配和释放等;而和体系结构相关的显存管理代码则坐落arch/*/mm/,比如
arch/i386/mm/Fault.c;
●Kernel/:主要的核心代码linux 内核 引导 文件系统,此目录下的文件实现了大多数linux系统的内核函数,其中
最重要的文件当属sched.c;同样,和体系结构相关的代码在arch/*/kernel中;
●Drivers/:放置系统所有的设备驱动程序;每种驱动程序又各占用一个子目录:如,/block下为块设备驱动程序,例如ide(ide.c)。假如你希望查看所有可能包含文件系统的设备是怎样初始化的,你可以看drivers/block/genhd.c中的device_setup()。它除了初始化硬碟,也初始化网路,由于安装nfs文件系统的时侯须要网路;
●Documentation/:文档目录,没有内核代码,只是一套有用的文档,可惜都是English
的,瞧瞧应当有用的哦;
●Fs/:所有的文件系统代码和各种类型的文件操作代码,它的每一个子目录支持一个文件
系统,比如fat和ext2;
●Ipc/:这个目录包含核心的进程间通信的代码;
●Lib/:放置核心的库代码;
●Net/:核心与网路相关的代码;
●Modules/:模块文件目录,是个空目录,用于储存编译时形成的模块目标文件;
●Scripts/:描述文件,脚本,用于对核心的配置;
通常,在每位子目录下,都有一个Makefile和一个Readme文件,仔细阅读这两个文
件,对内核源码的理解很有用。
对Linux内核源码的剖析,有几个挺好的入口点:一个就是系统的引导和初始化,即从机器加电到系统核心的运行;另外一个就是系统调用,系统调用是用户程序或操作调用核心所提供的功能的插口。对于这些对硬件比较熟悉的爱好者,从系统的引导入手进行剖析,可能来的容易一些;而从系统调用下口,则可能更合适于这些在dos或Uinx、Linux下有过C编程经验的大神。这两点,在前面还将介绍到。
方式之二:以程序流程为线索,一线串珠
从表面上看,Linux的源码就像一团扎乱无章的乱麻,虽然它是一个组织得有条有理的蛛网。要把整个结构剖析清楚,不仅找出线头,还得理顺各个部份之间的关系,有条不紊的
一点一点的剖析。
所谓以程序流程为线索、一线串珠,就是指按照程序的执行流程,把程序执行过程所涉及到的代码剖析清楚。这些技巧最典型的应用有两个:一是系统的初始化过程;二是应用程序的执行流程:从程序的装载,到运行,仍然到程序的退出。
为了简便起见,遵照循序渐进的原理,现就系统的初始化过程来具体的介绍这些技巧。系统的初始化流程包括:系统引导,实模式下的初始化,保护模式下的初始化共三个部份。
下边将一一介绍。
inux系统的常见引导方法有两种:Lilo引导和Loadin引导;同时linux内核也自带了一个bootsect-loader。因为它只能实现linux的引导,不像前两个那样具有很大的灵活性(lilo可实现多重引导、loadin可在dos下引导linux),所以在普通应用场合实际上极少使用bootsect-loader。其实,bootsect-loader也具有它自己的优点:短小没有多余的代码、附带在内核源码中、是内核源码的有机组成部份,等等。
bootsect-loader在内和源码中对应的程序是/Arch/i386/boot/bootsect.S。下边将
主要是针对此文件进行的剖析。
1.几个相关文件:
/Arch/i386/boot/bootsect.S
/include/linux/config.h
/include/asm/boot.h
/include/linux/autoconf.h
2.引导过程剖析:
对于Intelx86PC,开启电源后,机器才会开始执行ROMBIOS的一系列系统测试动作,包括检测RAM,keyboard,显示器,软硬磁盘等等。执行完bios的系统测试以后,紧接着控制权会转移给ROM中的启动程序(ROMbootstraproutine);这个程序会将c盘上的第0轨第0磁道(叫bootsector或MBR,系统的引导程序就置于此处)读入显存中,并放在自0x07C0:0x0000开始的512个字节处;之后处理机将跳到此处开始执行这一引导程序;也即放入MBR中的引导程序后,CS:IP=0x07C0:0x0000。加电后处理机运行在与8086相兼容
的实模式下。
假如要用bootsect-loader进行系统引导,则必须把bootsect.S编译联接后对应的二补码代码放在MBR;当ROMBIOS把bootsect.S编译联接后对应的二补码代码放入显存后,机器的控制权就完全转交给bootsect;也就是说,bootsect将是第一个被读入显存中并执行的程序。
Bootsect接管机器控制权后,将依次进行以下一些动作:
1.首先,bootsect将它"自己"(自位置0x07C0:0x0000开始的512个字节)从被ROMBIOS载入的地址0x07C0:0x0000处迁往0x9000:0000处;这一任务由bootsect.S的前十条指令完成;第十一条指令“jmpigo,INITSEG”则把机器跳转到“新”的bootsect的“jmpigo,INITSEG”后的那条指令“go:movdi,#0x4000-12”;以后,继续执行bootsect的剩下的代码;在bootsect.S
中定义了几个常量:
BOOTSEG=0x07C0bios载入MBR的约定位置的段址;
INITSEG=0x9000bootsect.S的前十条指令将自己搬进此处(段址)
SETUPSEG=0x9020放入Setup.S的段址
SYSSEG=0x1000系统区段址
对于那些常量可参见/include/asm/boot.h中的定义;那些常量在下边的剖析
上将会常常用到;
2.以0x9000:0x4000-12为栈底,构建自己的栈区;其中0x9000:0x4000-12到0x9000:0x4000的一十二个字节预留作c盘参数表区;
3.在0x9000:0x4000-12到0x9000:0x4000的一十二个预留字节中建立新的c盘参数表,之所以叫“新”的c盘参数表,是相对于bios构建的c盘参数表而言的。因为设计者考虑到有些老的bios不能确切地辨识c盘“每个扇区的磁道数”,因而造成bios构建的c盘参数表阻碍c盘的最高性能发挥,所以,设计者就在bios构建的c盘参数表的基础上通过枚举法测试,企图完善确切的“新”的c盘参数表(这是在后继步骤中完成的);并把参数表的位置由原先的0x0000:0x0078迁往0x9000:0x4000-12;且更改老的c盘参数表区使之指向
新的c盘参数表;
4.接出来就到了load_setup子过程;它调用0x13中断的第2号服务;把第0道第2磁道开始的连续的setup_sects(为常量4)个磁道读到邻近bootsect的显存区;,即0x9000:0x0200开始的2048个字节;而这四个磁道的内容即是/arch/i386/boot/setup.S编译联接后对应的二补码代码;也就是说,假如要用bootsect-loader进行系统引导,除了必须把bootsect.S编译联接后对应的二补码代码放在MBR,但是还得把setup.S编译联接后对应的二补码代码放在紧随MBR后的连续的四个磁道中;其实,因为setup.S对应的可执行码是由bootsect装载的,所以,在我们的这个项目中可以通过更改bootsect来按照须要随便地放置setup.S对应的可执行码;
5.load_setup子过程的惟一出口是probe_loop子过程;该过程通过枚举法测
试c盘“每个扇区的磁道数”;
6.接出来几个子过程比较清晰易懂:复印我们熟悉的“Loading”;读入系统到0x1000:0x0000;关闭软盘电机;按照的5步测出的“每个扇区的磁道数”确定c盘类型;最后跳转到0x9000:0x0200,即setup.S对应的可执行码的入口,将机器控制权转交setup.S;整个bootsect代码运行完毕;
3.引导过程执行完后的显存印象图:
出于简便考虑linux系统日志,在此剖析中,我忽视了对大内核的处理的剖析,由于对大内核的处理,只是此引导过程中的一个很小的部份,并不影响对整体的掌握。完成了系统的引导后,系统将步入到初始化处理阶段。系统的初始化分为实模式和保护模式两部份。
II、实模式下的初始化
实模式下的初始化,主要是指从内核引导成功后,到步入保护模式之前系统所做的一些处理。在内核源码中对应的程序是/Arch/i386/boot/setup.S;以下部份主要是针对此文件进行的剖析。这部份的剖析主要是要读懂它的处理流程和INITSEG(9000:0000)段参数表的构建,此参数表包含了好多硬件参数,这种都是之后进行保护模式下初始化,以及核心构建
的基础。
1.几个其它相关文件:/Arch/i386/boot/bootsect.S
/include/linux/config.h
/include/asm/boot.h
/include/asm/segment.h
/include/linux/version.h
/include/linux/compile.h2.实模式下的初始化过程剖析:
INITSEG(9000:0000)段参数表:(参见Include/linux/tty.h)
*注:①Include/linux/tty.h:CL_MAGICandCL_OFFSEThere
1.Include/linux/tty.h:
unsignedcharrsvd_size;/*0x2c*/unsignedcharrsvd_pos;/*0x2d*/
③0表示没有APMBIOS
④0x0002置位表示支持32位模式
⑤0表示没有,0x0aa表示有键盘器
III、保护模式下的初始化
保护模式下的初始化,是指处理机步入保护模式后到运行系统第一个内核程序过程中系统所做的一些处理。保护模式下的初始化在内核源码中对应的程序是
/Arch/i386/boot/compressed/head.S和/Arch/i386/KERNEL/head.S;以下部份主要是针
对这两个文件进行的剖析。
1.几个相关文件:
/Arch/i386/boot/compressed/head.S
/Arch/i386/KERNEL/head.S
//Arch/i386/boot/compressed/MISC.c
/Arch/i386/boot/setup.S
/include/asm/segment.h
/arch/i386/kernel/traps.c
/include/i386/desc.h
/include/asm-i386/processor.h2.保护模式下的初始化过程剖析:
一、/Arch/i386/KERNEL/head.S流程:
二、/Arch/i386/boot/compressed/head.S流程:
1.从流程图中可以见到,保护模式下的初始化主要干了这样几件事:
1.解压内核到0x100000处、
2.构建页目录和pg0页表并启动分页功能(即虚存管理功
能)、
3.保存实模式下测到的硬件信息到empty_zero_page、初始
化命令缓存区、
4.检命令类型、检查协处理器、
5.重新构建gdt全局描述符表、和中断描述附录idt;
2.从页目录和pg0页表可以看出,0;4M化学显存被用作系统区,它被映射到
系统段线性空间的0;4M和3G;3G+4M;即系统可以通过访问这两个段来访问实际的0;4M化学显存,也就是系统所在的区域;
3.原本在实模式下初始化时早已构建了全局描述符表gdt,而此处重新构建全局
描述符表gdt则主要是出于两个诱因:一个就是若内核是大内核bzimag,则以
前构建的gdt,可能早已在解压时被覆盖掉了所以,在这个源码文件中均只采
用相对转移指令jxxnf或jxxnb;二是先前构建的gdt是构建在实地址形式
下的,而如今则是在启用保护虚拟地址形式以后构建的,也即现今的gdt是建
立在逻辑地址(即线性地址)上的;
4.每次构建新的gdt后和启用保护虚拟地址形式后都必须重新装载系统栈和重新
初始化各段寄存器:cs,ds,es,fs,gs;
5.从实模式下的初始化和保护模式下的初始化过程可以看出,linux系统由实模
式步入到保护模式的过程大致如下:
6.因为分页机制只能在保护模式下启动,不能在实模式下启动,所以第一步是必要的;又由于在386保护模式下gdt和idt是构建在逻辑地址(线性地址)上的,所以第三步也是必要
的;
7.经过实模式和保护模式下的初始后,主要系统数据分布如下:
从里面对Linux系统的初始化过程的剖析可以看出,以程序执行流程为线索、一线串珠,就是根据程序的执行先后次序,读懂程序执行的各个阶段所进行的处理,及其各阶段之间的相互联系。而流程图应当是这些剖析方式最合适的抒发工具。
事实上,以程序执行流程为线索,是剖析任何源代码都首选的方式。因为操作系统的特殊性,光用这些技巧是远远不够的。其实用这些技巧来剖析系统的初始化过程或用户进程的执行流程应当说是很有效的。