首页 > 生活服务 > 正文

揭开搜狗语音实时翻译的面纱,未来如何引领人工智能?

  • 冯小彰
  • 2022-08-08 21:16
  • 29
摘要:就在大家还为2016乌镇互联网大会上的BAT大佬们“出彩”的朋友圈照片津津乐道时,很多人可能并未注意到另一个重要主题,这就是人工智能。除了百度无人驾驶汽车和各种

就在大家还为2016乌镇互联网大会上的BAT大佬们“出彩”的朋友圈照片津津乐道时,很多人可能并未注意到另一个重要主题,这就是人工智能。

除了百度无人驾驶汽车和各种炫目的AI项目外,恐怕搜狗CEO王小川在乌镇互联网大会上作演讲时的表现更为夺人眼球。

当他说到“搜索的未来就是人工智能时代的皇冠”时,屏幕同步显示出英文:“In the future, search will be the Crown of the AI Era”。无论是翻译的速度还是准确率都令人感到瞠目。

这并不是后台有人工的同步传译,也不是事先安排好的字幕投射,而是利用搜狗最新的语音实时翻译技术,在语音识别的同时,同步翻译出相对应的英文。

据了解,王小川“演示”的这项技术就是搜狗自主研发的“搜狗知音引擎”的最新功能搜狗语音实时翻译,“搜狗知音引擎”是搜狗在今年8月最新发布的专注于自然交互的语音技术交互平台,不仅具有“灵敏的耳朵”,更是拥有一个“聪明的大脑”,时隔三月,语音技术再次升级,让语音识别更进一步,能够做到实时翻译。

就在乌镇首秀实时翻译技术后不久,王小川近日又悄然来到香港科技大学,为搜狗语音实时翻译带来首次场景化的应用——在以英文为官方语言授课的香港科技大学进行了一场纯中文演讲,仅靠搜狗语音实时翻译,不带一名人工翻译,也没有任何翻译稿,做到让在座的外国学生完全明白王小川所讲授的内容。

知音交互引擎究竟有多“神秘”?

你是否还记得前段时间由杨幂和黄轩主演的火爆荧屏的电视剧《翻译官》,故事是从杨幂饰演的一位法语系女硕士乔菲展开,她的梦想着成为一名职业翻译,而进入高翻院则是她的梦想,为此她几乎历经了九九八十一难,克服了种种职业上的困难。

通过乔菲的视角,我们对翻译这个行业的艰辛与困难可见一斑。最为关键的是,像乔菲这样的一名职业编辑,从求学到求职,最终成为合格的翻译,无论是时间还是金钱上的成本已经不能用简单的“昂贵”二字来形容了。

未来,用人工智能来取代像乔菲这样的人类翻译,恐怕是大势所趋。随着人工智能概念大热,智能语音开始攻占各种智能终端:语音输入、语音导航、语音拨号……

经过在乌镇上短暂亮相,搜狗终于发布了“搜狗语音实时翻译技术”。

搜狗的语音实时翻译融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术,使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译的结果比传统机器翻译更加流畅,效果更好。

我们知道,语音交互分为三个技术环节,第一是语音识别,第二是语义的理解,第三是语音合成。语音识别作为语音交互的第一步,是理解、思考、交互的基础。

一个“灵敏的耳朵”和“聪慧的大脑”对自然交互至关重要。

深度学习时代,语音识别的准确率取决于优质数据训练量,对于一款引擎来讲,数据其实就是引擎的燃料,技术就是这个引擎的发动机。

而数据正是搜狗研发语音技术的优势所在,得益于搜狗庞大的用户量和藉此产生的海量数据,目前的“知音”引擎所使用的是互联网规模最大的语音数据。

数据显示,搜狗输入法日均语音输入的请求次数超过1.9亿次,是中国语音输入功能使用量最大的移动手机产品。

搜狗的语音识别在2012年11月份上线,用户在输入法上每天产生的语料规模是16万小时,这个数字比目前国内任何语音公司使用的语料规模都要大,甚至已经能够支撑现在所有语音公司的训练。

同时,搜狗自2013年开始研发深度学习的技术,近几年通过深度学习技术的累计,语音识别错误率累计降低了60%。

值得一提的是,“知音”引擎的语音识别使用了目前业界最先进的“端到端”模型,技术上更好地解决了用户在说话快过程中的吞音问题,同时在训练方法上使用了一种“主动学习”方法。

通过“端到端”模型以及硬件加速,搜狗语音的识别速度提升了3倍,识别错误率降低30%,大大降低了由于口音以及嘈杂环境带来的错误率。

可以说,搜狗的知音引擎是经过时间与大数据的“历练”的。不仅带来了语音识别准确率和速度的大幅提升,还可以与用户更加自然的交互,支持多轮对话,处理更复杂的用户交互逻辑。

可以看出,搜狗知音团队未来是有野心取代“翻译官”的角色的。

从知音引擎想象搜狗未来的人工智能

Alex Graves在《Neural Turing Machines》这篇论文中曾经提到一句话:“what is possible in principle is not always what is simple in practice.”其实就是描述了知易行难的道理。

这是搜狗语音团队在知乎上回答网友问题时所表达的感慨。确实,从探索语音交互技术如何走出实验室,真正走向实用,这中间隔了巨大的鸿沟。

比如,当王小川在香港科技大学进行演讲时,机器也确实偶尔犯了一些小错误,比如将“飞机落地”翻译成“fell down”等等,引起了在座学生的笑声。

但这些小瑕疵还是赢得了理解与宽容,毕竟这是一个从0到1的过程,港科大学生表示“很可爱”。事实上,港科大的翻译效果已经完成了最初的使命——让不懂中文的外籍学生“听”懂中文演讲。

据王小川介绍,搜狗的实时机器翻译技术利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译的结果比传统机器翻译更加流畅,效果更好。

而且在最近的人工评测里,这项技术在演讲、旅游、闲聊、日常口语等领域,采用五分制人工评分能达到4.4分,已经能够真正做到实用化。

相比Google此前发布的基于神经网络翻译的技术,搜狗已经领先了一步,知音引擎已经可以应用在实际场景中了。

从目前搜狗的产品线上来看,从语音交互引擎切入人工智能领域是一个顺利成章的过程。无论是输入法、地图还是搜索,都是语音交互的天然使用场景。

知音引擎在推出前,实际上就已经在语音识别、语义理解还有语音合成的技术已经广泛应用在搜狗的各个产品线上,通过产品的不断迭代,收集到的用户反馈、真实场景的数据对于技术能力的提升起到了很强的助推作用。

此前在“搜狗输入法十周年”的发布会上,搜狗就展示了具有强大智能辅助功能的输入法。

辅助表达主要是帮助用户表达复杂的语音,而除了输入法,另外一个会被人工智能技术推动的产品就是搜索,比如说垂直搜索,收集高质量信息并通过问答的形式直接给用户提供答案。

而语音识别、语义理解、知识图谱等技术梳理成一套成体系的“知音交互引擎”,主要还在是加固此前搜狗在这方面的技术、产品积累。

目前知识图谱研究方面还存在的难点,信息获取一定是一个知识和搜索相结合的方式,最终的知识图谱一定是人类整理和确认后形成知识网络。这类产品是通过数据累积,最终缓慢进步的一个过程。

搜狗未来的人工智能产品还是会回归到使用场景。比如对搜狗输入法来说,可以是从文字预测到用户意图预测,以及从单纯的输入工具过渡到连接服务的过程。

总结来说,就是自然交互加知识计算,这将是未来搜狗人工智能战略方向。

无论如何,对于搜狗来说,知音引擎是其在人工智能这个大时代背景下的一个全新的开始。如何进一步推动语音交互方式的发展,王小川和他的团队则一直以开放的姿态对外。

未来,在提升交互能力的同时,知音引擎也必然会找到更多适合语音交互的刚需场景,做出更多闪亮且符合人性的产品。