汇编语言学习与Makefile入门

时间:2022-12-31 16:19:32

继续开发

; hello-os
; TAB= ORG 0x7c00 ; 指明程序的装载地址 ; 以下的记述用于标准FAT12格式的软盘 JMP entry
DB 0x90
DB "HELLOIPL" ; 启动区的名称
DW ; 每个扇区(sector)的大小
DB ; 簇(cluster)的大小
DW ; FAT的起始位置
DB ; FAT的个数
DW ; 根目录的大小
DW ; 该磁盘的大小
DB 0xf0 ; 磁盘的种类
DW ; FAT的长度
DW ; 1个磁道(track)有几个扇区
DW ; 磁头数
DD ; 不适用分区
DD ; 重写一次磁盘大小
DB ,,0x29 ;
DD 0xffffffff ;
DB "HELLO-OS " ; 磁盘名称
DB "FAT12 " ; 磁盘格式名称
RESB ; 先空出18字节 ; 程序核心 entry:
MOV AX, ; 初始化寄存器
MOV SS,AX
MOV SP,0x7c00
MOV DS,AX
MOV ES,AX MOV SI,msg
putloop:
MOV AL,[SI]
ADD SI, ; 给SI加1
CMP AL,
JE fin
MOV AH,0x0e ; 显示一个文字
MOV BX, ; 指定字符颜色
INT 0x10 ; 调用显卡BIOS
JMP putloop
fin:
HLT ; 让CPU停止,等待指令
JMP fin ; 无限循环 msg:
DB 0x0a, 0x0a ; 换行2次
DB "hello, world"
DB 0x0a ; 换行
DB RESB 0x7dfe-$ ; 0x7dfe和当前字节之间用0x00填写 DB 0x55, 0xaa ; 以下是启动区以外部分的输出 DB 0xf0, 0xff, 0xff, 0x00, 0x00, 0x00, 0x00, 0x00
RESB
DB 0xf0, 0xff, 0xff, 0x00, 0x00, 0x00, 0x00, 0x00
RESB

这段程序里有很多新指令,我们从上到下依次来看看。


ORG指令,来源于"origin",意思是“源头,起点”。它会告诉nask,在开始执行的时候,把这些机器语言指令装载到内存的哪个地址,这里是0x7c00。有了这条指令的话,美元符($)的含义也随之变化,它不再是指输出文件的第几个字节,而是将要读入的内存地址。

JMP指令,来源于“jump”,意思是“跳转”。

entry:是标签的声明,用于指定JMP指令的跳转目的地,是“入口”的意思。

MOV指令的使用次数仅次于DB指令。“MOV AX,0”,相当于“AX=0;”这样一个赋值语句。同样,“MOV SS,AX”就相当于"SS=AX;"。MOV命令源自“move”,意思是“移动”。一般说来,如果我们把一个东西移走了,它原来所占用的位置就会空出来。但是,在执行"MOV SS,AX"语句之后,AX并没有变空,还保留着原来的指不变。


现在说说AX和SS。CPU里有一种名为寄存器的存储电路,相当于机器语言中的变量。具有代表性的寄存器有以下8个。

AX:accumulator,累加寄存器
BX:base,基址寄存器
CX:counter,计数寄存器
DX:data,数据寄存器 SP:stack pointer,栈指针寄存器
BP:base pointer,基址指针寄存器 SI:source index,源变址寄存器
DI:destination index,目的变址寄存器

这些寄存器全部都是16位寄存器,因此可以存储16位的二进制数。虽然它们都有上面这种正式名称,但平常使用的时候,往往用英文字母来代替,称他们为“AX寄存器”、"SI寄存器"等。

其实寄存器的全名还是很能说明它本来的意义的。比如在这8个寄存器中,不管使用哪一个,差不多都能进行同样的计算,但如果都用AX来进行各种运算的话,程序就可以写得很简洁。

“ADD CX,0x1234”编译成81 C1 34 12,是一个4字节的命令

“ADD AX,0x1234”编译成05 34 12,是一个3字节的命令

从上面的例子可以看出,这里所说的“程序可以写得很简洁”是指“用机器语言写程序”的情况,从汇编语言的源代码上是看不出这些区别的。如果我们不懂机器语言,就会有很多地方难以理解。

再说说别的寄存器,CX是为方便计数而设计的,BX则适合作为计算内存地址的基点。其他的寄存器也各有优点。这8个寄存器全部合起来也才只有16个字节。

另一方面,CPU中还有8个8位寄存器。

AL:累加寄存器低位(accumulator low)
CL:计数寄存器低位(counter low)
DL:数据寄存器低位(data low)
BL:基址寄存器低位(base low) AH:累加寄存器高位(accumulator high)
CH:计数寄存器高位(counter high)
DH:数据寄存器高位(data high)
BH:基址寄存器高位(base high)

名字看起来有点像,其实这是有原因的:AX寄存器共有16位,其中0位到7位的低8位称为AL,而8位到15位的高位称为AH。所以,如果以为“再加上这8个8位寄存器,CPU就又可以多保存8个字节了”就大错特错,CPU还是那个CPU,依然只能存储区区16个字节。

汇编语言学习与Makefile入门

那BP、SP、SI、DI怎么没分为“L”和“H”呢?如果无论如何都要分别取高位或低位数据的话,就必须先用“MOV,AX,SI”将SI的值赋到AX中去,然后再用AL、AH来取值。这貌似就是英特尔的设计人员的思维模式。

“喂,我家的电脑是32位的,可以不是16位。这样就能以32位为单位来处理数据了吧?那32位的寄存器在哪儿呀?”大家可能会有这样的疑问:

EAX,ECX,EDX,EBX,ESP,EBP,ESI,EDI

这些就是32位寄存器。这次的程序虽然没有用到它们,但如果想用也是完全可以使用的。在16位寄存器的名字前面加上一个E就是32位寄存器的名字了。这个字母E其实还是来源于“Extend”这个词。虽说EAX是个32位寄存器,但其实跟前面一样,它有一部分是与AX公用的,32位中的低16位就是AX,而高16位既没有名字,也没有寄存器编号。也就是说,虽然我们可以把EAX作为2个16位寄存器来用,但只有低16位用起来方便;如果我们要用高16位的话,就需要使用移位命令,把高16位移到低16位后才能用。

段寄存器,它们都是16位寄存器:

ES:附加段寄存器(extra segment)
CS:代码段寄存器(code segment)
SS:栈段寄存器(stack segment)
DS:数据段寄存器(data segment)
FS:没有名称(segment part2)
GS:没有名称(segment part3)

“MOV SI,msg”,MOV是赋值的意思:SI=msg。而msg是下面将会出现的标号,“把标号赋值给寄存器?”这到底是怎么回事?

前面我们已经看到了“JMP entry”这个指令,其实把它写成“JMP 0x7c50”也完全没有问题。本来JMP指令的基本形式就是跳转到指定的内存地址,因此这个指令就是让CPU去执行内存地址0x7c50的程序。

之所以可以用"JMP entry"来代替"JMP 0x7c50",是因为entry就是0x7c50。在汇编语言中,所有标号都仅仅是单纯的数字。每个标号对应的数字,是由汇编语言编译器根据ORG指令计算出来的。编译器计算出的“标号的地方对应的内存地址”就是那个标号的值。

所以,如果我们在这个程序中写了“MOV AX,entry”,那它就会把0x7c50代入到AX寄存器里,我们代入到AX寄存器中的就是这个简单的数字。大家可不要以为写在“entry”下面的程序也都被存储了,这是不可能的。

那么"MOV SI,msg"会怎么样呢?由于在这里msg的地址是0x7c74,所以这个指令就是把0x7c74代入到SI寄存器中去。


下面来看看"MOV AL,[SI]"。方括号代表“内存”,简单的说,它就是一个超大规模的存储单元。通过对寄存器的讲解,现在大家都知道了CPU的存储能力很差,如果我们想让CPU处理大量信息,就必须给它另外准备一套用于存储的电路。因为即便是32位的CPU,把所有普通的寄存器都加在一起,最多也只能存储32个字节的数据。就算把段寄存器也全部都用上,也才只有44字节。这么小的存储空间,就连启动电脑所必需的启动区数据都放不下。

内存并不在CPU的内部,而是在CPU的外面。所以对于CPU来说,内存实际上是外部存储器。这点很重要,就是说CPU要通过字节的一部分管脚(引线)向内存发送电信号,告诉内存:"把5678号地址的数据通过我的管脚传过来(严格说,CPU和内存之间还有称为芯片的控制单元)!"CPU向内存读写数据时,就是这样进行信息交换的。

CPU与内存之间的电信号交换,并不仅仅是为了存取数据。因为从根本上讲,程序本身也是保存在内存里的。程序一般都大于44字节,不可能保存在寄存器中,所以规定程序必须放在内存里。CPU在执行机器语言时,必须从内存一个命令一个命令地读取程序,顺序执行。

MOV指令的数据传送源和传送目的地不仅可以是寄存器或常数,也可以是内存地址。这个时候,我们就使用方括号来表示内存地址。另外,BYTE、WORD、DWORD等英文词也都是汇编语言的保留字:

MOV BYTE [],

这个指令是要用内存的“678”号地址来保存“123”这个数值。虽然指令里有数字,但实际上内存和CPU一样,根本就没有什么数值的概念。所谓的“678”,不过就是一大串开(ON)或者关(OFF)的电信号而已。当内存收到这一串信号是,电路中的某8个存储单元就会响应,这8个存储单元记住代表“123”的开(ON)或关“OFF”的电信号。为什么是8位呢?这是因为指令里指定了“BYTE”。同样,我们还可以写成:

MOV WORD [],

这种情况下,内存地址中的678号和旁边的679号都会做出反应,一共是16位。这时,123被解释成一共16位的数值,也就是0000000001111011,下位的01111011保存在678号,上位的00000000保存在旁边的679号。像这样在汇编语言里指定内存地址是,要用下面这种方式来写:

汇编语言学习与Makefile入门

数据大小[地址]

这是一个固定的组合。如果我们指定“数据大小”为BYTE,那么使用的存储单元就是地址所指定的字节。如果我们指定“数据大小”位WORD,则与WORD相邻的一个字节也会成为这个指令的操作对象。如果指定为DWORD,则与WORD相邻的两个字节,也都成为这个指令的操作对象(共4个字节)。这里所说的相邻,指的是地址增加方向的相邻。

至于内存地址的指定方法,我们不仅可以使用常数,还可以用寄存器。比如“BYTE [SI]”、“WORD [BX]”等等。如果SI中保存的是987的话,“BYTE [SI]”就会被解释成“BYTE [987]”,即指定地址为987的内存。

虽然我们可以用寄存器来指定内存地址,但可作为此用途的寄存器非常有限,只有BX、BP、SI、DI这几个。剩下的AX、CX、DX、SP不能用来指定内存地址,这是因为CPU没有处理这种指令的电路,或者所没有表示这种处理的机器语言。没有对应的机器语言当然也就不能进行这样的处理了。所以想把DX内存里的内容复制给AL的时候,就会这样写:

MOV BX, DX
MOV AL, BYTE [BX]

根据以上说明我们知道可以用下面这个指令将SI地址的1字节内容读到AL。

MOV AL, BYTE [SI]

可是MOV指令有一个规则,那就是源数据和目的数据必须位数相同。也就是说,能向AL里代入的就只有BYTE,这样一来就可以省略BYTE,即可以写成:

MOV AL, [SI]

所以,这个指令的意思就是“把SI地址的1个字节的内容读入AL中”。ADD是加法指令,若以C语言的形式改写“ADD SI,1”的话,就是SI=SI+1。


CMP是比较指令,简单的说,它是if语句的一部分。比如C语言的“if(a==3){处理;}”即对a和3进行比较,将其翻译成机器语言是,必须先写"CMP a,3",告诉CPU比较的对象,然后下一步再写“如果二者相等,需要做什么”。

这里是“CMP AL,0”,意思就是讲AL中的值与0进行比较。这个指令源自英文中的cpmpare,意为”比较”。

JE是条件跳转指令中之一。所谓条件跳转指令,就是根据比较的结果决定跳转或不跳转。就JE指令而言,如果比较结果相等,则跳转到指定的地址;如果比较结果不等,则不跳转,继续执行下一条指令。因此:

CMP AL,
JE fin

这两条指令,就相当于:

if(AL == ){ goto fin;}

这条指令源自英文"jump if equal",意思是如果相当就跳转。fin是个标号,它表示“结束(final)”的意思。


INT是软件中断指令。暂时先把它看作一个函数调用,这个指令源自"interrupt",是“中途打断”的意思。

电脑里有个名为BIOS的程序,出厂时就组装在电脑主板上的ROM单元里。电脑厂家在BIOS中预先写入了操作系统开发人员经常会用到的一些程序。BIOS是英文"basic input output system"的缩写,直译过来就是"基本输入输出系统"

最近的BIOS功能非常多,甚至包括了电脑的设定画面,不过它的本质正如其名,就是为操作系统开发人员准备的各种函数的集合。而INT就是用来调用这些函数的指令。INT额后面是个数字,使用不同的数字可以调用不同的函数。这次我们调用的是0x10(即16)号函数,它的功能是控制显卡。

比如我们现在想要显示文字,先假设一次只显示一个字,那么具体怎么做才能知道这个功能的使用方法呢?

首先,既然是要显示文字,就应该看跟显卡有关的函数。这么看来,INT 0x10好像有点关系:

显示一个字符
AH=0x0e;
AL=character code;
BH=;
BL=color code;
返回值:无
注:beep、退格(back space)、CR、LF都会被当做控制字符处理

所以,如果大家按照这里所写的步骤,往寄存器里代入各种值,再调用INT 0x10,就能顺利地在屏幕上显示一个字符出来。虽然BL中放入的是色彩字符码,但这里变更后,颜色并没有变。尚不清楚为什么只能显示白色,只能推测现在这个画面模式下,不能简单地指定字符颜色。


最后一个新出现的指令是HLT。这个指令很少用,它是让CPU停止动作的指令,不过并不是彻底的停止(如果要彻底停止CPU的动作,只能切断电源),而是让CPU进入待机状态。只要外部发生变化,比如按下键盘,或是移动鼠标,CPU就会醒过来,继续执行程序。

仔细看看这个程序,我们会发现其实不管有没有HLT指令,JMP fin都是无限循环,不写HLT指令也可以。但如果没有HLT指令,CPU就会不停地全力去执行JMP指令,这会是CPU符合达到100%,非常费电。最好是一开始就养成待机时使用HLT指令的习惯,HLT源自"halt",意思是“停止”。

说了这么多,终于把这个程序从头到尾都讲完了。用C语言总结一下就是这样的:

entry:
AX = ;
SS = AX;
SP = 0x7c00;
DS = AX;
ES = AX;
SI = msg;
putloop:
AL = BYTE [SI];
SI = SI =;
if (AL == ){goto fin;}
AH = 0x0e;
BX = ;
INT 0x10;
goto putloop
fin:
HLT;
goto fin;

就是有了这个程序,我们才能够把msg里写入的数据,一个字符一个字符地显示出来,并且数据变成0以后,HLT指令就会让程序进入无限循环。"hello, world"就是这样显示出来的。


ORG指令本身刚才已经讲过,但这个0x7c00又是从哪儿冒出来的呢?大家所用的内存,不是我们想怎么用就能怎么用的。比如说,内存的0号地址,也就是最开始的部分。它是BIOS程序用来实现各种不同功能的地方,如果我们随便使用的话,就会与BIOS发生冲突。结果不只是BIOS会出错,而且我们的程序也肯定会问题百出。另外,在内存的0xf0000号地址附近,还存放着BIOS程序本身,那里我们也不能使用。

0x00007c00-0x00007dff;启动区内容的装载地址

程序中ORG指令的指就是这个数字。而且正是因为我们使用的是这个同样的数字,所以程序才能正常运行。一旦有了规定,人们就会以此位前提开发各种操作系统。