ClaasColoplastContinentalElectroluxMärklinMANOTTOPriceWaterhouseCoopersSIXTStarbucksZDF

机器翻译

机器翻译(MÜ 英语为”machine translation“)是借助电脑程式把译出语(在机器翻译里也称 源语言)翻译成输出语。 机器翻译是人工智能在电脑时代的一个实例。

因为人工翻译属于应用语言学的范畴,所以机器翻译是信息技术和电脑语言学的范围。 早在四十年代就有为第一台近似电脑机器编写的机器翻译程式。

人类的梦想

人类最早的梦想就是,在不需要学习的情况下就可以理解别的语言(参见:巴别塔,宝贝鱼,科幻小说)。 电脑的发明让语言作为科学学科第一次提供了完全的可能性,实现人类的梦想。

历史

一直到今天军事对机器翻译的发展都起到了决定性的影响。 第一个机器翻译项目是为美军所写的俄语-英语翻译程式。 虽然翻译的质量很差也很不专业,这个程序却得到美军的普遍赞扬,不需要借助翻译和口译的帮助,他们可以大体了解俄语文件的大意。

在1966年美国防御部门出版的ALPAC报导中指出机器翻译的不可实现性让机器翻译的研究在近20年几乎处于完全停滞的状态。 在八十年代电子行业集团如西门子(金属计划)又重新开始了对机器翻译的研究工作。 同一时间日本政府开始了”第五代计划“,在项目中通过程序语言”Prolog“把英语机器翻译成日语。 加上和大学,电子行业集团及政府的共同努力完成了第一个电脑国际商业机器翻译程序,让日本成为全世界机器翻译研究的先锋。 九十年代在德国的教育研究部门促进了示范项目"移动动词"(Verbmobil)的实施。 此项目的在于把德语英语或德语日语之间的对话互相转换。 移动动词系统能识别即席发言,按条目进行分析,然后把它翻译成外语,组成一个句子,再大声的读出来。

在2000年和2001年发生的十分严重的股票市场危机(Dotcom Crash)让很多小型机器翻译公司垮台。 目前在软件机器翻译界只有大概10到20家公司依然活跃(很多程序在安装和进行调节变换时都需要特许),这就说明,机器翻译的研究有很大一部分是在各个大 学里进行的。

机器翻译在翻译市场的使用率只占总量的百分之一。

然而,机器翻译使用率的不断升高也有很多其他的原因:

  • 现在很多文章都只有数字模式可用(所以只能通过计算机工作)。
  • 应全球化的影响,越来越多的文章有必要被翻译成其他语言(翻译市场每四年都会扩大一倍),但是翻译和口译的名声却在不断下降。
  • 语言是很难学会的东西,
    • 对经济重要的语言: 东亚语言如汉语,韩语,日语和泰语。
    • 对军事部门重要的语言: 在国际战乱区的语言,特别是美军支持的国家。 2003年美国很多软件公司以阿拉伯语和阿富汗语出品了翻译软件。 同年,美国国防部研究所(DARPA)为编写一个任意源语言的翻译程序进行了不记名投标竞选。

翻译方法

所有的机器翻译系统都是使用双语字典,至少有一套语法基本规则。 尽管如此,各个翻译方法还是各有千秋。

重要的机器翻译方法有以下几种:

  • 直接机器翻译。源文件的词语以相同的顺序逐字的被翻译成目标语言。 然后再按目标语言的规则调整变换词语的位置。 这是最老最简单的机器翻译方法,建立了以上所说的系统里俄语和英语之间互译的基本理论。
  • 转运翻译.转运翻译是一种传统的机器翻译方法,一共分为三个步骤: 分析,转运,生成。 这个翻译方法就是以第二个步骤所命的名。 系统首先会对源语言文章进行语法结构分析,比较常见的是用树状结构。 根据所选的转运方法,从分析里就可以得出一个语言结构。 然后这个结构就会被翻译成目标语言。 根据语法规则把句子在这个结构里再进行一次重组,最后生成目标文章。
  • 中间语言翻译.源语言的语法信息被先转换成中介表义词或是“国际语言”,然 后再根据它们把语法信息翻译为目标语言。 中间语言翻译方法能很好的翻译复杂的表达。 比如: 德语句子“Wenn ich arbeiten würde, würde ich mir ein Auto kaufen(如果我有工作,我就给自己买汽车)”就不能按规则把würde翻译成would(*“If I would work, I would buy a car“),因为在英语里有if的句子是不允许同时带would的。 “国际语言”会把würde信息看作“虚拟条件从句”,再根据上下文结构决定是否用would来翻译。
  • EBMT(是英语Example-Based Machine Translation,例子翻译法)。 EBMT系统的核心部分是翻译存储器,储存经常重复出现的句子和短语的翻译。 它会统计计算(用信息交换方法),现存的翻译条目和源文件的句子有多接近。 和源文件最相近的句子就会被翻译和被最后组合起来,这样就产生了最后的译稿。
  • SBMT(是英语Statistics-Based Machine Translation, 统计翻译法)。 这个程序会在翻译形成前从双语文章中作出全面概括性的解析。 (比如:政府程序)。 这个处理方法会根据词和语法结构出现的频率和内容在原文及译文的相近性而分类。 这样就产生了字典及语法规则, 翻译就在这个基础上进行 。 统计翻译法在近期很受欢迎,因为它对相关语言的知识没有要求。 统计翻译法接下来的优点是, 以语言科学知识方面来看, 还没有完全精确的分析文章部分的理论规则解释。 统计翻译法的翻译质量当然比 已 经 存 在 有 理 论 基 础 的系 统 差 一 点,部分原因是因为相对来说还是比较新的方法 。 美国国防部根据有时就会根据本身的要求选择统计翻译法,特别是当语言必须通过机器翻译系统被迅速翻译而没有时间通过人为的总结的情况。
  • HAMT (是英语Human-Aided Machine Translation, 有人工帮助的机器翻译). 在这里就不是电脑单独翻译整个文档, 使用者也要同时注意避免含糊不清,多重含义及复杂的结构形式(也叫作controlled language“被控制语言”)。 这可以通过使用者进行, 比如长句变短句 , 再如使用者可以预先在程序中设定, 自己选择词语的涵义 。

在实际运用中往往是多种方法的混合(主要是转运翻译,附加中间语言翻译及例子翻译法)。

MAHT (Machine-Aided Human Translation, 电脑辅助翻译)的意思是, 人工翻译加上电脑同时自动在字典里搜索(automatic dictionary look-up),以及和先前的翻译作比较(翻译存储器). MAHT这个翻译方法不仅仅针对机器翻译。

翻译质量

机器翻译程序所得出的结果常常会让人不满意。 而翻译的效果您也很容易看到: 请您随便找一篇文章, 再用一个免费的翻译软件把他翻译成您的母语。

我们应该如何评价机器翻译的质量呢?

为了改变“翻译糟透了”这个直观的对机器翻译根深蒂固的印象, 机器翻译研究人员使用刻度尺来评估翻译质量。 机器翻译以句子为单位来评估,所有句子标准化代表整篇文章的质量。 在很多情况下都是由目标语母语者做评估,并用目录的形式表示出来。 在日本经常使用5分制图表:

  • 4分: 非常通俗易懂,几乎完美,没有明显的错误。
  • 3分: 一到两个翻译不正确的词,但总的还语义通顺。
  • 2分: 还可以找出文章最初想要表达的意境。
  • 1分: 句子不能体现原文的涵义和意境(如果有的话)。 这种情况的发生部分或完全是由于翻译语法的不正确。
  • 0分: 翻译的句子完全没有意义,看上去像是词语的胡乱堆砌和拼凑。

对于长的翻译,机器翻译研究人员也使用自动评估算法如BLEU-Score,他同时也以人的判断力为基础。

期望值过高?

另外一个和机器翻译有关的问题应该就是人们对他的期望值过高。 因此目前对机器翻译的改良看上去总是不尽人意。 对机器翻译运转很重要的一点是,源文件的含义清楚明白,依照他可以再创作一篇让人完全明白的译文。 我们又怎么能期望电脑能理解及翻译连人都无法理解的语言呢? 大多数语言学家认为,只有人类才具备完全理解一门语言的能力。 有的语言学家观点是,一个完美的机器翻译系统是可以模拟人工智能的方法。 像上面所说的那样,统计翻译法的其中一个优势是避开这个问题,因为迄今为止他在理论上还可能导致未解决的规则问题。

实际问题

对于机器翻译通常欠缺的质量问题是有很多的原因,有一些是可以避免的。

  • “廉价的程序”.很多人以网上的免费翻译程序如雅虎或者谷歌来评价机器翻译的质量水平。 他们至多是付费(较好)程序或者仅仅是快速翻译(相对比较不好)程序的缩水版或旧版。
  • 使用者本身对源语言有一定了解. 特别是西方语言之间的互译,使用者或多或少对源语言有一定的了解,所以他们会比那些完全只看翻译去理解文章的人容易察觉到翻译得不一致的地方。
  • 语言风格.每种语言都有他自己的风格,这也是语言学家无法描述的及其特 别的属性。 如果使用机器翻译在系统里没有储存的文章种类,那就会得到很糟糕的结果。 这种情况常常发生在文学作品及口语中,有时也会在技术文章中遇到(比如:日本非常声名狼籍的操作说明书翻译)。
  • 缺乏跨学科性.机器翻译隶属于计算机语言学,大多数研究人员的主要专业 不是计算机科学就是语言学----没有足够的对于其他专业的知识。 语言学家常常对编程有问题,而计算机语言学家却又缺乏和“语言”打交道的能力。 基于这个原因大多数机器翻译使用的基点就是结构化的语言模式,他并不重视最近50年内的语言学认识。
  • 在工业和学术之间没有交换 商业机器翻译企业喜欢雇用纯有专业实践知识的编程员,而不是大学的机器翻译研究人员,他们往往给人以过于偏重不必要细节的印象。
  • 字典太小或不够精确.随着社会和科学的日新月异,每种语言的词汇也在每 天不断的积累更新。 除此之外很多词有多重涵义(同音异义字),这只能通过对上下文的分析加以区别。 质量低略的翻译作品的高百分比让人吃惊,而重要原因就是缺少字典,比如上面提到的俄语德语互译。 大的机器翻译程序里都有好几百万词条的字典,还有多意义选项。 为了机器翻译的运转,必须有词典编纂者把大词典完全没有错误的整理分类,而此造价对一个小公司来说就太高了。
  • 缺乏转运规则.各个语言的语法规则大相径庭,有的语法现象只针对一种语言。 为了解决这个问题,特别的语言研究就很有必要;机器翻译公司当然想避免高额的支出。
  • 计算机语言学的问题.机器翻译也会遇到很多同样可能出现在其他计算机语言程序里的问题,比如:百科全书知识。