阿里云旗下AI产品“听悟”升级,融合多项AI功能实现音视频内容记录和阅读

新知榜官方账号

2023-11-20 18:07:28

阿里云旗下AI产品“听悟”升级,融合多项AI功能实现音视频内容记录和阅读

今天上午,“通义”家族迎来了新成员——阿里云旗下的AI会议助理产品“听悟”全新升级为“通义听悟”,依托通义千问语言模型、音视频AI模型能力,为用户带来音频和视频内容记录和阅读的全新体验。

“通义听悟”已上线服务网站,使用阿里云账号登录,公测期可体验所有AI功能。从现场演示中可以看出,听悟融合了十多项AI功能。面向线上线下各种泛音视频场景,提供音视频内容的实时字幕/转写、多语言翻译、内容理解/摘要,涵盖全文概要、章节速览、发言总结等高阶AI功能,旨在帮助用户及客户在泛音视频内容场景下提升信息生产、整理、挖掘、洞察效率。

首先是“听力好”,比如能高准确度生成会议记录、区分不同发言人;此外是“悟性高”,大模型可以一秒给音视频划分章节并形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。另外,大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能近期也将上线。针对一些细分场景,听悟还设置了不少“宝藏功能”:打开Chrome插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的“开会替身”,在静音情况下入会AI可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。通义听悟Chrome插件将在近期对所有用户开放下载。

据阿里云智能首席技术官周靖人介绍,听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。

具体到玩法,正如“通义听悟”的“自我介绍”中所说:如果你是一名职场人士,通义听悟可以帮你记录和回顾你的每一场会议;如果你是一位学生朋友,通义听悟可以让你不遗漏老师讲授的每一个重点;如果你是一名金融分析师或媒体从业人员,通义听悟可以存档你每一次的调研访谈;如果你想以最快的时间看完你最喜爱的视频博主的直播分享,通义听悟可以使你以成倍的速度抓住最精彩的内容。接下来,让我们看看“通义听悟”的本领如何。

学习效率提升利器

用户可以本地上传音视频,选择转写语言并上传文件,即可生成课程文字记录。从阿里云盘直接导入也是可以的:通义听悟支持一键导入阿里云盘音视频文件。公测期间注册的听悟用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时也可自动出字幕。如果用户选择在“通义听悟”中播放课程视频,还可以实现文字与视频进度一一对应。此外,“通义听悟”能够帮忙总结课程关键词和议程,方便学习者了解课程要点、回顾讲解片段。如果你想复习一下学习过程的疑点、难点,可以打开听悟实验室,开启“问题回顾”,即可回顾课程中的答疑内容。想要快速复习要点,则可以使用“只看标记”功能,筛选高亮内容,复习更高效。你可以在右侧笔记中记录核心知识点,将课程原文一键摘取至笔记中。再使用分享功能,你可以将记录共享给其他用户,让知识流动起来。

更加高效的会议体验

面向会议日程繁多的“打工人”,“通义听悟”也新增了多项效率工具。会议开始前,打开“开启实时记录”功能,可以将沟通内容实时转文字,完整记录会议信息。在会议进行过程中,你可以修改识别结果,边听边记录,无需二次整理;也可以编辑发言人,将经常开会的同事设为常用发言人,后续会议无需再次输入。跨国会议中,可以开启翻译,支持双语对照和纯译文显示,沟通更顺畅。会议结束后,点击结束录音按钮,选择本次会议发言人数并确认,“通义听悟”即可生成记录。不结关键词和议程,还能自动区分不同发言人,帮助快速掌握会议要点。此时,打开听悟实验室,即可查看值得关注的要点、待办事项,一键跳转至原文中,回顾会变得更高效。

此次听悟上线测试的信息摘要等能力,是以通义千问大模型为基座,并融合了团队在推理、对齐和对话问答等方向的持续研究成果。未来,全新升级后的“通义听悟”还将在夸克APP、阿里云盘等端口提供服务。

公测期间,用户可领取100小时以上听悟免费转写时长。

本页网址:https://www.xinzhibang.net/article_detail-20604.html

寻求报道,请 点击这里 微信扫码咨询

关键词

阿里云 AI 听悟 升级 音视频 记录

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯