搜狗同传3.0发布,首创语境引擎,多模态同传技术实现新突破

新知榜官方账号

2023-07-01 16:44:49

搜狗同传3.0发布,首创语境引擎,多模态同传技术实现新突破

上周六,搜狗发布了业内首个多模态同传产品——搜狗同传3.0版。搜狗同传3.0采用了搜狗独创的「语境引擎」,加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。此外,搜狗同传3.0还实现了更为自然的交互,包括语音、图像、手势等各种方式。

首创「语境引擎」,搜狗AI同传新突破

搜狗同传技术自2016年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。为了解决上述问题,搜狗在同传3.0版中加入了「语境引擎」,希望能够通过对语言的深入理解来解决问题。

「语境引擎能够实时利用摄像头识别现场屏幕上的PPT内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过OCR技术,现在搜狗同传可获取语音信息+PPT信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。」

除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传2.0版、3.0版和人类专业同传进行了对比测试。人类达到了4.08分、搜狗同传2.0可以达到3.41分,而3.0版则获得了3.82分。这一成绩实现了同传领域的新突破,让AI距离专业的人类同传水平又近了一步。

能看又能听的多模态技术

搜狗同传3.0主要带来了三个方向上的提升:更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。更加专业,新的模型通过实时定制知识增强能力,能够捕捉现场PPT内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。更加智能,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。

与演讲者一起「边看边思考」相比以往,多模态的AI同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传3.0在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将OCR技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。

多场景应用

搜狗同传3.0的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。

搜狗同传技术自2016年发布1.0版以来,经历了不断升级的过程。在同传系统翻译模块的背后,1.0版使用RNN模型,在2.0版本中,我们引入了Transformer模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在3.0版的系统中,除了Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」

但同时我们也应看到行业的共性问题,AI同传的准确性距离人类专家水平还有一定距离。搜狗同传3.0背后,更是公司「自然交互+知识计算」战略的深入。搜狗正在依托语音、图像、手势等各种方式让AI与人类展开更为「自然」的交流。

本页网址:https://www.xinzhibang.net/article_detail-3953.html

寻求报道,请 点击这里 微信扫码咨询

关键词

搜狗同传 多模态 语境引擎

分享至微信: 微信扫码阅读

相关工具

相关文章