新知榜官方账号
2023-07-01 16:44:49
上周六,搜狗发布了业内首个多模态同传产品——搜狗同传3.0版。搜狗同传3.0采用了搜狗独创的「语境引擎」,加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。此外,搜狗同传3.0还实现了更为自然的交互,包括语音、图像、手势等各种方式。
搜狗同传技术自2016年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。为了解决上述问题,搜狗在同传3.0版中加入了「语境引擎」,希望能够通过对语言的深入理解来解决问题。
「语境引擎能够实时利用摄像头识别现场屏幕上的PPT内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过OCR技术,现在搜狗同传可获取语音信息+PPT信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。」
除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传2.0版、3.0版和人类专业同传进行了对比测试。人类达到了4.08分、搜狗同传2.0可以达到3.41分,而3.0版则获得了3.82分。这一成绩实现了同传领域的新突破,让AI距离专业的人类同传水平又近了一步。
搜狗同传3.0主要带来了三个方向上的提升:更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。更加专业,新的模型通过实时定制知识增强能力,能够捕捉现场PPT内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。更加智能,现在自动学习PPT的内容,自动捕捉海量词汇,确保同传品质非常优秀。
与演讲者一起「边看边思考」相比以往,多模态的AI同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传3.0在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将OCR技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。
搜狗同传3.0的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。
搜狗同传技术自2016年发布1.0版以来,经历了不断升级的过程。在同传系统翻译模块的背后,1.0版使用RNN模型,在2.0版本中,我们引入了Transformer模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在3.0版的系统中,除了Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」
但同时我们也应看到行业的共性问题,AI同传的准确性距离人类专家水平还有一定距离。搜狗同传3.0背后,更是公司「自然交互+知识计算」战略的深入。搜狗正在依托语音、图像、手势等各种方式让AI与人类展开更为「自然」的交流。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16