除了 机器语言外,其他用任何软件语言书写的程序都不能直接在计算机上执行,都需要对它们进行适当的处理。语言处理系统的作用是把用软件语言书写的各种程序处理成可在计算机上执行的程序,或最终的计算结果,或其他中间形式。
不同级别的软件语言有不同的处理方法和处理过程。关于需求级、功能级、设计级和文档级软件语言的处理方法和处理过程是软件语言、软件工具和软件开发环境的重要研究内容之一。关于实现级语言即 程序设计语言的处理方法和处理过程发展较早,技术较为成熟,其处理系统是基本 软件系统之一。这里,语言处理系统仅针对 程序设计语言的处理而言。关于需求级、功能级、设计级、和文档级语言的处理请参见需求定义语言,功能定义语言,设计性语言, 软件过程和软件工具。
按照不同的源语言、目标语言和翻译处理方法,可把 翻译程序分成若干种类。从 汇编语言到 机器语言的 翻译程序称为 汇编程序,从高级语言到机器语言或汇编语言的翻译程序称为 编译程序。按 源程序中指令或语句的动态执行顺序,逐条翻译并立即 解释执行相应功能的处理程序称为 解释程序。除了 翻译程序外,语言处理系统通常还包括正文 编辑程序、宏加工程序,连接 编辑程序和 装入程序等。
随着 程序设计语言的变化和发展,语言处理系统也跟着由小到大、由简单到复杂的变化和发展。最初人们直接用 机器语言来描述问题的解法,这种程序无需任何处理就能直接在计算机上运行。但是这样的编程方式太繁琐,极易出错,效率极低,是非常不可取的。在计算机发展的早期,人们就在努力设法改变这种编程方式。开始时倾向于准备好一个由一些常用的例程程序组成的库,并借用一些代码来引用该库中的例行程序。后来改用一些 字符或语言来表示这些代码,这样就成了符号语言的雏形。在此基础上,人们努力使 机器语言符号化。 机器语言发展成了 汇编语言。语言的这一发展导致要求有一 翻译程序把 汇编语言程序翻译成机器语言程序,这种翻译程序称为汇编程序。
紧随 汇编语言和 汇编程序之后发展的是自动 编译器。在自动 编译器中,程序人员用的语言更接近通常的数学表示体系。20世纪50年代初出现的第一批自动 编译器都十分初步,它们只允许简单的 单目运算, 数据元素的命名方式有很多限制,然而它们促进了对高级语言处理系统和通用的翻译过程的研究。 20世纪50年代中期出现了FORTRAN等一批高级语言,与此相适用的 语言处理程序、 解释程序和 编译程序也相继开发成功。
随着 编译技术的进步和社会对 编译程序需求的不断增长,50年代末有人开始研究 编译程序的自动生成工具,提出并研制编译程序的编译程序,它的功能是从任一语言的词法规则、语法规则和语义解释出发,自动产生该语言的编译程序。研制一个功能完全且实用的编译程序的编译程序是很困难的。多数编译程序的编译程序都是一些专用编程序生成系统,如自动生成 词法分析程序的扫描程序生成系统,自动生成 语法分析程序的语法分析程序生成系统。
60年代起,不断有人开始使用自展技术来构造 编译程序。自展的主要特征是用被编译的语言来书写该语言自身的 编译程序。自展的思想最早在50年代中间就有人提出,到1971年,PASCAL的编译程序用自展技术生成后,其影响越来越大。
随着 并行技术和并行语言的发展,处理并行语言的并行 编译技术正在深入研究之中,将 串行程序转换成并行程序的自动并行编译技术也正在深入研究之中。
按照处理方法,语言处理系统可分为编译型解释型和混合型三类。
编译型语言处理系统是采用编译方法的语言处理系统。 解释型语言处理系统是采用解释方法的语言处理系统。混合型语言处理系统是兼有编译和解释两种方法的语言处理系统。
多数高级语言都有一些不能在编译时刻确定而要到运行时刻才能确定的特性。因此,与这些特征相关联的语言成分等价的 目标代码在编译时刻不能全部生成,需要到运行时才能全部生成。这些语言成分只能采用解释方法处理。多数 解释程序都是先对 源程序进行处理,把它转换成某种中间形式,然后对中间形式的代码进行解释,而不是直接对源程序进行解释。这就是说,多数高级语言处理系统既非纯编译型,也非纯解释型,而是编译和解释混合型。
程序设计语言处理系统主要包括正文编辑程序、宏加工程序、 编译程序、 汇编程序、 解释程序、连接编辑程序、 装入程序、 编译程序的编译程序、 自编译程序、 交叉编译程序和并行编译程序等。
正文 编辑程序用于创建和修改 源程序正文文件。一个 源程序正文可以编辑成一个文件,也可以分成多个模块编辑成若干个文件。用户可以使用各种编辑命令通过键盘、鼠标器等输入设备输入要编辑的元素或选择要编辑的文件,正文 编辑程序根据用户的编辑命令来创建正文文件,或对文件进行各种删除、修改、移动、复制及打印等操作。
宏加工程序把 源程序中的 宏指令扩展成等价的预先定义的指令序列。对 源程序进行编译之前应先对源程序进行宏加工。
编译程序把用高级语言书写的程序翻译成等价的机器语言程序或 汇编语言程序。变异过程可分为分析和综合两个部分。分析部分包括 词法分析、 语法分析和 语义分析三步。分析的目的是检察 源程序的语法和语义的正确定,并建立 符号表、常数表和中间语言程序等 数据对象。综合的目的是为 源程序中的常数、 变量、 数组等各种 数据对象分配 存储空间,并将分析的结果综合成可高效运行的 目标程序。 汇编程序把用 汇编语言书写的程序翻译成等价的机器语言程序。
解释程序按 源程序中语句的动态执行顺序,从头开始,翻译一句执行一句,再翻译一句再执行一句,直至程序执行终止。和编译方法根本不同的是,解释方法是边翻译边执行,翻译和执行是交叉在一起的,而编译方法却把翻译和执行截然分开,先把源程序翻译成等价的机器语言程序,这段时间称为编译时刻,然后再执行翻译成的 目标程序,这段时间称为运行时刻。正因为 解释程序是边翻译边执行,所以要把 源程序及其所处理的数据一起交给 解释程序进行处理。
编译方法和解释方法各有优缺点。编译方法的最大优点是执行效率高,缺点是运行时不能与用户进行交互,因此比较适用于些规模较大或运行时间较长或要求运行效率较高的程序的语言,更适用于写机器或系统软件和 支撑软件的语言。解释方法的优点是 解释执行时能方便的实现与用户进行交互,缺点是执行效率低,因此比较适用于交互式语言。
连接 编辑程序将多个分别编译或汇编过的 目标程序段组合成一个完整的目标程序。组合成的 目标程序可以是能直接执行的二进制程序,也可以是要再定位的二进制程序。
装入程序将保存在外存介质上的 目标程序以适于执行的形式装入内存并启动执行。
编译程序的编译程序是产生编译程序的编译程序。他接受用某种适当的表示体系描述的某一语言类中任意语言A的词法规则、语法规则、语义规则和(或)代码生规则,并从这些描述产生出用目标语言B写的关于语言A的全部或部分编译程序。这样便可显著提高 编译程序的开发效率。
自编译程序是用被编译的语言即源语言自身来书写的编译程序。利用自变异技术,可以从一具有自编译能力的语言L的一个足够小的子集L0的 编译程序出发,逐步构造出L的编译程序,也可从L的未优化的编译程序出发,构造优化的编译程序。
交叉编译程序是一种编译程序,它自身在甲机器上运行,生成的 目标代码是乙机器的代码。
并行 编译程序是并行语言的编译程序,或是将串行语言程序并行化的编译程序,后者又称为自动并行编译程序。
一个程序特别是中、大规模的程序难免没有错误。发现并排除 源程序中的错误是语言处理系统的任务之一。通常 源程序的语法错误和静态语义错误都是由 编译程序或解释程序来发现的。排错能力的大小是评价编译程序和 解释程序优劣的重要标志之一。 源程序中的动态语义错误通常要借助于在语言中加入某些排错设施如跟踪、截断来发现和排除。处理排错设施的程序是排错程序。
语言处理系统对于 机器翻译的质量尤为重要。事实上,不论哪种翻译处理方法,影响机译发展的最大因素在于译文的质量。就已有的成就来看,机译的质量离终极目标仍相差甚远。
中国数学家、语言学家 周海中曾在论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的。同时,他还指出:在人类尚未明了“人脑是如何进行语言的模糊识别和逻辑判断”的情况下,机译要想达到“信、达、雅”的程度是不可能的。这也是制约机译质量提高的一大瓶颈。
语言处理系统的发展与软件语言、软件工程和软件技术的发展紧密相连,相互影响,相互促进。随着软件语言和软件技术向可视化、 多媒体、并行化、智能化、自然化和自动化等方面发展,语言处理系统也向着这些方面发展。