“江湖(a kind of social enviornment exsits politics and tactics,一种存在政治和诡计的社会环境)这个词,是中国文化中一种独特的表达,用机器将它正确地翻译成英文是很难的,它一般都会按照字面意义直接翻译,机器有可能会认为那是江西省和湖南省(the province of Jiangxi and Hunan)或者江和湖(rivers and lakes)的意思。”说起AI同传场景中涉及的一个关键技术——机器翻译存在的问题,微软首位华人“全球技术院士”、首席语音科学家黄学东近日这样形象地向《中国经营报》记者举例表示。
事实上,AI同传场景中,机器翻译的问题还不仅仅是上文所提及的。并且,在该场景牵涉的另两项技术——语音识别和语音合成中,也存在一些问题。
此外,通过与同传行业人士以及业内专业人士的交流,本报记者初步了解到,在AI技术运用到同传的实际应用场景中,当前是否真的能为人工同传的工作提供实质性帮助,或也值得关注。
概念上的厘清和界定
近日,在接受记者采访的一些专业人士看来,同传本来指的是同声传译,也就是说话者的源语言发出的声音与人工同传人员将这种语言转译为另一种语言,口译出来的声音基本同步。在延时时长上,它对译者有很严格的要求,这也是同声传译与其他普通形式的翻译的一个很重要的区别。AI同传是机器翻译的一个具体应用任务。
科大讯飞方面告诉本报记者:“目前AI同传的概念更倾向于理解为人机耦合,即同传和机器的配合。”
在AI技术模拟人工同传的做法、渗透到该行业的过程中,主要运用了上文提及的语音识别、机器翻译和语音合成这三种技术。
一些受访人士认为,实际的应用场景中,通常会看到只有机器识别讲者声音并转录为文本、然后机器实时地将这种文本翻译为目标语言文本的形式,显示在讲者PPT旁边的大屏幕上。虽然没有最后一步,但完成了最关键、最有技术难度的两个步骤,所以某种程度上,这也可以算是一种广义上的机器同传的表现形式。
京东集团AI事业部副总裁、深度学习及语音语言实验室主任何晓冬告诉本报记者:“这基本上也可以算作是同传,只是最后声音没放出来。”
“AI同传到文本翻译这一步,后面接一个语音合成系统就可以输出语音。”来自中国科学院自动化研究所下属的中科凡语公司的一名专业人士向本报记者这样表示。
何晓冬认为:“机器翻译的结果至于说是以文本形式显示在屏幕上,还是用语音合成的技术,以声音的形式输送到耳朵里,这个问题其实倒不是那么大,因为语音合成现在还是比较成熟的,是这三种技术中比较容易控制的。”
AI同传场景依旧面临的挑战
与人工同传的工作类似,运用AI技术进行广义上的机器同传时,首先要对说话者的声音进行语音识别。这是第一步,甚至也可以说是最关键的步骤之一,因为如果机器不能听清讲者在说些什么,后面的翻译结果可想而知。
在语音识别环节,近日,来自全球一家世界500强科技公司的专业人士在接受本报记者采访时称:“之前参加过一些活动,看到配用的机器同传系统一旦碰到co-mixing(讲者演讲中出现中英文混杂的情况)的时候,就会出现一些问题。”
该人士补充道:“基本上现有的语音识别系统都是在单语种上进行优化的,机器翻译现在的训练数据或者训练语料当中,co-mixing出现的比例其实并不高,它对目前的翻译系统的训练可能并没有产生什么影响,所以目前碰到co-mixing或者是co-switching(中英文编码转换,指的就是多种不同的语言结合在一起的时候)这种现象时,机器处理得并不好。”
黄学东也向记者表示,因为“一般的PC麦克风远场不是很好”,微软具有语音识别和实时机器翻译功能的PPT当前也面临着“需要把麦克风远场交互做得更好”的挑战。
而除了上述语音识别方面的问题,对于复杂场景、嘈杂环境中的语音识别,以及方言、严重的口音、口语等的语音识别,AI也依然面临挑战。
此外,在最关键的机器翻译环节,除了文章开头即提及的不能根据上下文语境进行精准翻译、只能从字面直接的意义去理解外,机器同传翻译对诗歌、抒情散文等的翻译,与人工同传相比仍旧还有距离,还难以达到语言翻译追求的“雅”的境界。
近日,搜狗语音交互技术中心高级总监陈伟在接受记者采访时称:“诗歌的词和词之间的对应关系很弱,机器如果直接按照诗歌里面说的,把它转化成白话文去翻译的话,是反映不出意境的。所以诗歌翻译上,目前如果真的要靠模型的方式来做,距离人工还有很大差距。”科大讯飞方面也对本报记者表示:“后续在整体识别翻译的准确度和流畅度上仍有进步空间,要达到标准的‘信达雅’还有一段路要走。”
何晓冬还向记者提到了同传场景中机器翻译的一个很重要的问题:“机器需要去判断什么时候出翻译,很多时候要等着听到后面的内容才知道前面该怎么翻,但因为是同传,所以也不能等太久,这时候就需要做一个决策,是等下去损失用户体验,还是先把前面的部分翻译出来。”
但这样同样会面临一个问题。他以“美国第42届新当选的总统特朗普和安倍晋三在某地方会晤”的中英翻译为例补充提到,这是一句较长的话,中英文语句对主谓宾的表达顺序不同,在翻译成英文的过程中,如果译者一直等到后面的关键词“会晤”出现,就会出现延时长的问题,但如果为了顾及实时性赶紧翻译,甚至有可能会翻错。
“因为它有可能不是‘会晤’,而是别的动词,不到最后那个词出来,你就不知道具体是什么。实时性和翻译质量之间比较难兼顾。这个问题目前其实业界也没有很好的办法去解决。”他向本报记者提及。
清华大学计算机系教授刘洋也向本报记者提到:“目前距离开放域、开放环境的全自动、高质量语音翻译还有很大距离,未来还需要学术界和工业界长期的共同努力。”
而即使是在业界普遍认为的技术成熟度相对最高的语音合成环节,也依然还有问题待解。
何晓冬认为,这项技术虽然并不是很难,但如果做得不好,也会影响用户的体验。“语音合成的声音比较平和、柔顺,听起来比较符合人的自然的声音。”
此外,被看作是深度学习神经网络在机器翻译领域的成功应用、支撑机器翻译的NMT(神经机器翻译)架构本身,也被指存在可靠性、数据偏差、无意义输出、记忆力、对常识的判断力以及机器翻译质量评估方面的问题。刘洋向本报记者称:“过去一两年,基于神经网络的机器翻译方法的大体框架没有发生重大变化。”
而正如前文所述,AI技术到底对人工同传的工作有多大实际的辅助作用,也还依旧值得关注。
刘洋向本报记者提及:“一般而言,很多实用化的、对译文质量要求非常高的机器翻译系统都会采用人机协同的方式,充分发挥人类专家和机器的优势,通常由机器先生成初始译文,然后由人类专家进行后编辑。”
然而,近日,有在同传行业工作10年之久的一位人工同传向本报记者称:“我一般自己翻自己的,不看机器翻译的结果。同传的程序就应该是听-译,而不是听-看-译(或照着机器初翻的结果跟着读),后者分散精力,对翻译员的压力更大。”
上述500强公司的专业人士也向本报记者提及:“技术上自动同传或者自动机器翻译的系统,可以给人工同传提供一定的辅助和支持。但这个目前还没有在实践上被验证。至于怎么起到这种辅助作用,那也是未来实现的事情。”
而在投资市场,近日,星瀚资本创始人杨歌在接受记者采访时提及,同传行业本身属于一个“高频的小众市场”,市场整体产能相对有限,AI同传领域应更关注其能否延展到其他行业的应用中去。
相较于与不同语种的机器人进行同传的对话和交流的“深AI”表现形式,杨歌认为,对于单个人的语音进行机器同传则是一种“浅AI”的表现形式,前者“因更多地涉及到对话内容、逻辑,还有理解长段对话的一个过程,难度非常大,现在还属于早期发展阶段”。
业界探索和进展略举
作为人类区别于其他生物的标志之一,语音、语言方面的相关技术,在黄学东看来,堪称镶在AI皇冠上的明珠。
他本人在这颗“明珠”上几十年的雕琢和打磨,也见证了科技进步所带来的改变。
他或许还记得,早年间求学苏格兰爱丁堡大学时,台上操着浓重苏格兰英语的教授的发音,给自己带来的“痛苦的经历”。
而这一切,现在已经彻底成为历史。2019年,通过整合此前就已推向市场的PPT插件,微软向其office 365订阅用户推出了在讲者演示时具有实时字幕和机器同步翻译等功能的PPT。
在他看来,技术在现实场景中最后一公里的落地是AI所面临的最大挑战。而微软的AI技术在同传场景中的这项应用,在他看来“可圈可点”,让同传走上了新的台阶,使用量和用户量都出现了前所未有的增长,已经实际惠及全球千万级用户。
“大家在台上演讲,有些人有语言障碍,同声字幕和翻译,对PPT的用户来说,就很深入人心。”他表示。而对于前面提到的微软PPT麦克风远场交互方面的问题,他表示可以用佩戴无线头戴耳机的方式来解决。
此外,不久前搜狗推出的3.0版本的同传产品,据称还用到了计算机视觉方面的技术,是业内首个“多模态”同传产品,首创语境引擎,不仅会听、会看还会思考。
科大讯飞方面近日也向记者表示,其人机耦合模式下的同声传译“已经涉及医疗和科技领域,特别是在医疗领域对相关垂直科室的专有名词的优化,大大提升了识别和翻译的准确性,解决了通用引擎在垂直领域上效果的不足”。
在AI同传的研究方面,据黄学东向本报记者介绍,2019年,微软在斯坦福大学进行的对话转语音识别方面,也“达到了可以媲美人类的水平”。
何晓冬向本报记者称,在学术研究层面,当前业界有关于探讨“能否做成一个很大的端到端的系统,把语音识别和机器翻译整个包起来,直接从语音到语音,而不是说分语音识别、机器翻译和语音合成这三步走”的问题。刘洋同时提到,关于该领域的学术研究还包括低延迟搜索算法等方面。
刘洋还向本报记者称,当前业界针对同传的具体特点(如实时性高、需有效处理环境噪声等)做了很多优化工作,但总体而言还没有取得新的里程碑式的重大突破。