新知榜官方账号
2023-07-01 16:44:49
上周六,搜狗发布了业内首个多模态同传产品——搜狗同传3.0版。搜狗同传3.0采用了搜狗独创的「语境引擎」,加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。此外,搜狗同传3.0还实现了更为自然的交互,包括语音、图像、手势等各种方式。
搜狗同传技术自2016年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。为了解决上述问题,搜狗在同传3.0版中加入了「语境引擎」,希望能够通过对语言的深入理解来解决问题。
「语境引擎能够实时利用摄像头识别现场屏幕上的PPT内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过OCR技术,现在搜狗同传可获取语音信息+PPT信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。」
除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传2.0版、3.0版和人类专业同传进行了对比测试。人类达到了4.08分、搜狗同传2.0可以达到3.41分,而3.0版则获得了3.82分。这一成绩实现了同传领域的新突破,让AI距离专业的人类同传水平又近了一步。
搜狗同传3.0主要带来了三个方向上的提升:更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。更加专业,新的模型通过实时定制知识增强能力,能够捕捉现场PPT内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。更加智能,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。
与演讲者一起「边看边思考」相比以往,多模态的AI同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传3.0在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将OCR技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。
搜狗同传3.0的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。
搜狗同传技术自2016年发布1.0版以来,经历了不断升级的过程。在同传系统翻译模块的背后,1.0版使用RNN模型,在2.0版本中,我们引入了Transformer模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在3.0版的系统中,除了Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」
但同时我们也应看到行业的共性问题,AI同传的准确性距离人类专家水平还有一定距离。搜狗同传3.0背后,更是公司「自然交互+知识计算」战略的深入。搜狗正在依托语音、图像、手势等各种方式让AI与人类展开更为「自然」的交流。
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28