第2章 C♭和cbc

本章将对本书制作的编译器及其实现的概要进行说明。

2.1 C♭语言的概要

本书制作的编译器可将C♭这种语言编译为机器语言。本节首先对C♭语言的概要进行简单的说明。

C♭的Hello, World!

C♭是C语言的简化版,省略了C语言中琐碎的部分以及难以实现、容易混淆的功能,实现起来条理更加清晰。虽然如此,C♭仍保留了包括指针等在内的C语言的重要部分。因此,理解了C♭的编译过程,也就相当于理解了C程序的编译过程。

让我们再来看一下用C♭语言编写的Hello, World!程序,如代码清单2.1所示。

代码清单2.1 用C♭语言编写的Hello, World!程序

import stdio;
int
main(int argc, char **argv)
{
    printf("Hello, World! \n");
    return 0;
}

可见该程序和C语言几乎没有差别,不同之处只是用import替代了#include,仅此而已。

本书的目的是让读者理解“在现有的OS上,现有的程序是如何编译及运行的”。那些有着诸多不切实际的限制,仅能作为书中示例的“玩具”语言,对其进行编译丝毫没有意义。从这个角度来说,C语言作为编程语言是非常具有现实意义的,而C♭则十分接近于C语言。因此,理解了C♭,对于现实的程序就会有更深刻的认识。

C♭中删减的功能

为了使编译器的处理简明扼要,下面这些C语言的功能不会出现在C♭中。

●预处理器

●K&R语法

●浮点数

●enum

●结构体(struct)的位域(bit field)

●结构体和联合体(union)的赋值

●结构体和联合体的返回值

●逗号表达式

●const

●volatile

●auto

●register

简单地说一下删除上述功能的原因。

首先,C♭同C语言最大的差异在于C♭没有预处理器。认真地制作C语言的预处理器会花费过多的时间和精力,进而无法专注于本书的主题——编译器。

但是,因为省略了预处理器,所以C♭无法使用#define和#include。特别是不能使用#include,将无法导入类型定义和函数原型,这是有问题的。为了解决该问题,C♭使用了与Java类似的import关键字。import关键字的用法将稍后说明。

数据类型方面也做了一些变化。

首先,删除了和浮点数相关的所有功能。浮点数的计算是比较重要的功能,笔者也想对此进行实现,但由于本书页数的限制,最后也只能放弃。

其次,由于C语言的enum和生成名称连续的int型变量的功能本质上无太大区别,因此为了降低编译器实现的复杂度,这里将其删除。至于结构体和联合体,主要也是考虑到编译器的复杂度,才删除了类似的使用频率不高或非核心的功能。

volatile和const还是比较常用的,但因为cbc几乎不进行优化,所以volatile本身并没有太大意义。const可以有条件地用数字字面量和字符串字面量来实现。

最后,auto和register不仅使用频率低,而且并非必要,所以将其也删除了。

import关键字

下面对C♭中新增的import关键字进行说明。

C♭在语法上和C语言稍有差异,而且没有预处理器,所以不能直接使用C语言的头文件。为了能够从外部程序库导入定义,C♭提供了import关键字。import的语法如下所示。

import导入文件ID;

下面是具体的示例。

import stdio;
import sys.params;

导入文件类似于C语言中的头文件,记载了其他程序库中的函数、变量以及类型的定义。cbc中有stdio.hb、stdlib.hb、sys/params.hb等导入文件,当然也可以自己编写导入文件。

导入文件的ID是去掉文件名后的“.hb”,并用“.”取代路径标识中的“\”后得到的。例如导入文件stdio.hb的ID为stdio,导入文件sys/params.hb的ID为sys.params。

导入文件的规范

下面让我们看一个导入文件的例子,cbc中的stdio.hb的内容如代码清单2.2所示。

代码清单2.2 导入文件stdio.hb

// stdio.hb
import stddef;  // for NULL and size_t
import stdarg;
typedef unsigned long FILE;    // dummy
extern FILE* stdin;
extern FILE* stdout;
extern FILE* stderr;
extern FILE* fopen(char* path, char* mode);
extern FILE* fdopen(int fd, char* mode);
extern FILE* freopen(char* path, char* mode, FILE* stream);
extern int fclose(FILE* stream);
        
        

只有下面这些声明能够记述在导入文件中。

●函数声明

●变量声明(不可包含初始值的定义)

●常量定义(这里必须有初始值)

●结构体定义

●联合体定义

●typedef

函数及变量的声明必须添加关键字extern。并且在C♭中,函数返回值的类型、参数的类型、参数名均不能省略。

2.2 C♭编译器cbc的构成

阅读有一定数量的代码时,首先要做的就是把握代码目录以及文件的构成。这一节将对本书制作的C♭编译器cbc的代码构成进行说明。

cbc的代码树

cbc采用Java标准的目录结构,即将作者的域名倒序,将倒序后的域名作为包(package)名的前缀,按层次排列。比如,笔者的个人主页的域名是loveruby.net,则包名以net. loveruby开头,接着是程序的名称cflat,其下面排列着cbc所用的包。代码的目录结构如图2-1所示。

图2-1 cbc中包的层次

从asm到utils的11个目录,各自对应着同名的包。也就是说,cbc有11个包,所有cbc的类都属于这11个包中的某一个。cbc不直接在net.loveruby和net.loveruby. cflat下面放置类。

cbc的包

cbc的包的内容如表2-1所示(省略了包名的前缀net.loveruby.cflat)。

表2-1 cbc中的包

在这些包之中,asm、ast、entity、ir、type这5个包可以归结为数据相关(被操作)的类。另一方面,compiler、parser、sysdep、sysdep.x86这4个包可以归结为处理相关(进行操作的一方)的类。

把握代码整体结构时最重要的包是compiler包,其中基本收录了cbc编译器前端的所有内容。例如,编译器程序的入口函数main就定义在compiler包的Compiler类中。

compiler包中的类群

我们先来看一下compiler包中的类。compiler包中主要的类如表2-2所示。

表2-2 compiler包中主要的类

Compiler类是统管cbc的整体处理的类。编译器的入口函数main也在Compiler类中定义。

从Visitor类到TypeResolver类都是语义分析相关的类。关于这些类的作用将在第9章详细说明。

最后,IRGenerator是将抽象语法树转化为中间代码的类,详情请参考第11章。

main函数的实现

在本章最后,我们一起来大概地看一下Compiler类的代码。Compiler类中main函数的代码如代码清单2.3所示。

代码清单2.3 Compiler#main(compiler/Compiler.java)

static final public String ProgramName = "cbc";
static final public String Version = "1.0.0";
static public void main(String[] args){
    new Compiler(ProgramName).commandMain(args);
}
private final ErrorHandler errorHandler;
public Compiler(String programName){
    this.errorHandler = new ErrorHandler(programName);
}

main函数中,通过new Compiler(ProgramName)生成Compiler对象,将命令行参数args传递给commandMain函数并执行。ProgramName是字符串常量"cbc"。

Compiler类的构造函数中,新建ErrorHandler对象并将其设为Compiler的成员。之后,在输出错误或警告消息时使用该对象。

commandMain函数的实现

接着来看一下负责cbc主要处理的commandMain函数(代码清单2.4)。原本的代码中包含较多异常处理的内容,比较繁琐,因此这里只列举主要部分。

代码清单2.4 Compiler#commandMain的主要部分(compiler/Compiler.java)

public void commandMain(String[] args){
    Options opts = Options.parse(args);
    List<SourceFile> srcs = opts.sourceFiles( );
    build(srcs, opts);
}

commandMain函数中,首先用Options类的parse函数来解析命令行参数args,并取得SourceFile对象的列表(list)。一个SourceFile对象对应一份源代码。实际的build部分,是由build函数来完成的。

Options对象中的成员如表2-3所示。

表2-3 Options对象的成员

Options对象中还定义有其他成员和函数,因为只和代码生成器、汇编器、链接器相关,所以等介绍上述模块时再进行说明。

Java5泛型

可能有些读者对List<SourceFile>这样的表达式还比较陌生,所以这里解释一下。

List<SourceFile>表示“成员的类型为SourceFile的列表”,简单地说就是“SourceFile对象的列表”。到J2SE 1.4为止,还不可以指定List、Set等集合中元素对象的类型。从Java 5开始,才可以通过集合类名<成员类名>来指定元素成员的类型。

通过采用这种写法,Java编译器就知道元素的类型,在取出元素对象时就不需要进行类型转换了。

这种能够对任意类型进行共通处理的功能称为泛型。在Java5新增的功能中,泛型使用起来尤其方便,是不可缺少的一项功能。

build函数的实现

我们继续看负责build代码的build函数,其代码大概如代码清单2.5所示。

代码清单2.5 Compiler#build的主要部分(compiler/Compiler.java)

public void build(List<SourceFile> srcs, Options opts)
                                      throws CompileException {
    for(SourceFile src : srcs){
        compile(src.path( ), opts.asmFileNameOf(src), opts);
        assemble(src.path( ), opts.objFileNameOf(src), opts);
    }
    link(opts);
}

首先,用foreach语句(稍候讲解)将SourceFile对象逐个取出,并交由compile函数进行编译。compile函数是对单个C♭文件进行编译,并生成汇编文件的函数。

接着,调用assemble函数来运行汇编器,将汇编文件转换为目标文件。

最后,使用link函数将所有的对象文件和程序库链接。

可见上述代码和第1章中叙述的build的过程是完全对应的。

Java 5的foreach语句

这里介绍一下Java 5中新增的foreach语句。foreach语句,在写代码时也可以写成“for...”,但通常叫作foreach语句。

foreach语句是反复使用Iterator对象的语句的省略形式。例如,在build函数中有如下foreach语句。

for(SourceFile src : srcs){
    compile(src.path( ), opts.asmFileNameOf(src), opts);
    assemble(src.path( ), opts.objFileNameOf(src), opts);
}

这个foreach语句等同于下面的代码。

Iterator<SourceFile> it = srcs.iterator( );
while(it.hasNext( )){
    SourceFile src = it.next( );
    compile(src.path( ), opts.asmFileNameOf(src), opts);
    assemble(src.path( ), opts.objFileNameOf(src), opts);
}

通过使用foreach语句,遍历列表等容器的代码会变得非常简洁,因此本书中将尽量使用foreach语句。

compile函数的实现

最后我们来看一下负责编译的compiler函数的代码。剩余的assemble函数和link函数将在本书的第4部分进行说明。

compiler函数中也有用于在各阶段处理结束后停止处理的代码等,多余的部分比较多,所以这里将处理的主要部分提取出来,如代码清单2.6所示。

代码清单2.6 Compiler#compiler的主要部分(compiler/Compiler.java)

public void compile(String srcPath, String destPath,
                    Options opts)throws CompileException {
    AST ast = parseFile(srcPath, opts);
    TypeTable types = opts.typeTable( );
    AST sem = semanticAnalyze(ast, types, opts);
    IR ir = new IRGenerator(errorHandler).generate(sem, types);
    String asm = generateAssembly(ir, opts);
    writeFile(destPath, asm);
}

首先,调用parseFile函数对代码进行解析,得到的返回值为AST对象(抽象语法树)。再调用semanticAnalyze函数对AST对象进行语义分析,完成抽象语法树的生成。接着,调用IRGenerator类的generate函数生成IR对象(中间代码)。至此就是编译器前端处理的代码。

之后,调用generateAssembly函数生成汇编语言的代码,并通过writteFile函数写入文件。这样汇编代码的文件就生成了。

从下一章开始,我们将进入语法分析的环节。