搜寻

智财新讯

专利
回列表

EPO如何提升其专利机器翻译引擎之翻译质量

2013/11/1
        欧洲专利局(EPO)于今(2013)626日在其免费的「专利机器翻译系统(Patent Translate)」新增6种欧洲语言的机器翻译服务,包括保加利亚语、捷克语、冰岛语、罗马尼亚语、斯洛伐克语,以及斯洛文尼亚语。该局另于今年926日再宣布新增俄文-英文机器翻译,该系统目前共提供22种语言的实时互译。然而,EPO是如何达成此一成果,特别是某些语言,可用于训练机器翻译引擎的专利文献数量有限,EPO是如何训练其机器翻译的质量?
        对此一疑问,EPO在今年出版的第3期「专利信息季刊(Patent Information News)」中说明其如何获得所需的翻译质量水平并确保其持续提升。
 
一、为专利量身打造的翻译引擎
        专利语汇及书写文体与大部分的文字不同,使得标准的机器翻译引擎对专利文件的翻译倍感困扰,因此需要改用不同的解决方法。
        EPO的局长Battistelli2010年启动该系统计划时即认为,以往上百万件经由人工翻译的专利文件可以作为新系统的基础。
        此一概念是基于,如果专利家族中的两个案件是不同语言的对等案,只需将他们汇入机器翻译引擎学习并等待其改善翻译质量。EPO发现可与Google合作此项工作,并同意提供大量对等专利文件的双语对列语料(corpora)Google,以训练统计式的机器翻译服务系统。
 
二、以主要的语言作为验证
        20122月「专利机器翻译系统」上线时,所提供的英文与法、德、义、葡及西文5种主要欧洲语言之间的互译,即有大量的数据可供语料使用。
        初步的测试结果令人印象深刻,显现以往的系统已明显的改善。评量翻译质量的方法之一是采用5级的标准,其中质量最好的是接近人工翻译的第5级。到了20129月,大部分的对列语言获得的平均分数介于第3级和第4级之间,显示「专利机器翻译系统」可提供用户对专利文件最基本的了解,并协助其决定是否需进一步订购人工翻译。
 
三、增加更多的语言,部分语言的翻译质量令人惊讶
        随着时间的推移,欧洲专利局加入更多的专利语料,「专利翻译系统」也出现更多的语言。然而,具有大量对等专利案件的语言有限,有时建立语料库会较为困难。这些语料资源较少的语言纳入系统后,经过质量分析,让EPO的专家们惊喜,其评比仅略低于主要语言的一般水平,在某些情况下甚至更好。
        分析师试图找出结果如此好的原因,印证了「优进优出(Quality in, quality out」的俗语。简而言之,如果语料库中的人工翻译语料非常的好,并以其所产生的最终语料训练统计式翻译引擎如何翻译专利文件,就会产生正面的影响。
        某些语言,包括芬兰文、匈牙利文、土耳其文和日文,与英文的文法差异相当大,为一特殊的挑战。对于这些语言中,语料库的大小不是问题,且有许多的文件可供取得。况且,团队中的语言学家能够确认,这些语文的语法和结构与大多数的西欧语言非常不同。一般来说,「专利机器翻译系统」已经能将词汇翻译的很好,并继续处理以确保翻译的文法能够让人了解专利文件。
四、一天翻译1万件,并持续增加
        大部分的人并不看好「专利机器翻译系统」会成功,该系统现在则每天处理1万件翻译文件。最常见的要求是将德文翻译成英文,中译英的需求亦快速地增加。翻译质量将持续改善,并将会加入更多的语言。   
        EPO的目标是,到2014年年底,将所有EPO成员国的官方语言,再加上日文、简体中文、俄文及韩文,不仅可与英文互译,亦可与法文和德文互译。
 
TOP