堪称“玄学”!百度机器翻译技术获重大突破:能预测发言者未来几秒的内容!

堪称“玄学”!百度机器翻译技术获重大突破:能预测发言者未来几秒的内容!

1.png

其实这是百度在机器同传中研发的最新技术,有预测和可控延迟能力,能实现两种语言之间的高质量、低延迟翻译。它的出现让机器同传又有了新进展!

2.png

同声传译是一项很重要的工作,在国际会议、外交谈判、演讲等场合,只要交流之间出现了两种语言,就需要同声翻译的帮助,他们会在现场听取演讲,并实时翻译成另一种语言。

3.png

4.png

5.png

6.png

7.png

这是百度同传的脑补现场,当说到“百度在18年前”时,AI 就预测出了“started a business”



另外一点是!百度同传可以个性化控制翻译时的延迟速度,像法语和西班牙语这种比较接近的语言,延迟就设置在比较低的水平。


但是,英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟可以设置为较高水平,从而更好地应对差异。


人类同传译员在接到翻译任务后,通常会提前很多天学习相关知识,进行“备课”,为的就是更好地应对陌生词汇而临危不惧。


于是,百度工程师们模仿了这一准备过程,让机器同传也能通过快速融合领域知识策略,快速学习专业知识,提前“备课”。





当 AI 同传接到某一个领域的翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。





区别于传统的上下文相关建模技术,百度推出了上下文无关音素组合的中英文混合建模单元,包含1749个上下文无关中文音节和1868个上下文无关英文音节。这个方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。





根据语音识别模型常犯的错误,在训练数据的时候加入噪声数据,让模型在接收到错误的语音识别结果时,也能在译文中纠正过来。





比如,语音识别系统将“大堂”错误地识别为“大唐”,这一对噪声词被收录到训练数据里,再把源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel”,同时将这两个中文句子存储在它的“大脑”里面,以后再出现类似的情况会更轻松地解决!




和咱们人类译员相比,机器最大的优势是不会因为疲倦而导致译出率下降,能把所有“听到”的句子全部翻译出来,这让机器的“译出率”可以达到100%,远高于人类译员的60%-70%。







同声传译被广泛应用于政府间的峰会、多边谈判和其他商业场合,但是同传人员稀缺也成为了当前的棘手问题。


研发百度同传的目的,并不是取代人类译员,而是为了降低同传成本,让同传的应用范围更加广泛。我们希望世界各地的人在 AI 的帮助下早日实现“无障碍”的交流,用科技让复杂的世界更简单!


 




1588-7053319
百度
Copyright © 2016 All Rights Reserved 版权所有 云南百度营销服务中心 严禁抄袭复制 滇ICP备17010388号-1

在线客服

关注我们 在线咨询 投诉建议 返回顶部