阿里云通义听悟上线公测，可用于音视频内容的转写、检索、摘要和整理

新知榜官方账号

2023-07-28 16:32:24

阿里云于6月1日宣布通义大模型进展，聚焦音视频内容的AI新品“通义听悟”上线公测。通义听悟接入了通义千问大模型的理解与摘要能力，可以帮助随时随地完成对音视频内容的转写、检索、摘要和整理。用户可以使用大模型自动做笔记、整理访谈、提取PPT等。

听悟是一款工作学习AI助手，它瞄准具有高知识附加值的音视频内容场景，比如开会、上课、访谈、培训、面试、直播、看视频、听播客等，能通过大模型等最新AI技术快速提炼和沉淀知识。听悟融合了十多项AI功能，可以全面提升知识从音视频向图文形态转化的效率。

听悟内置阿里新一代工业级语音识别模型Paraformer，这个模型是非自回归端到端语音识别模型，在推理效率上较传统模型，最高可以提升10倍。Paraformer使用长达数万小时、覆盖丰富场景的超大规模工业数据集进行训练，进一步提升了识别准确率。目前，阿里团队已推出了多款重磅语音识别模型，包括首次将识别准确率提升至96%的DFSMN模型、E2E-ASR端到端语音识别技术等。

阿里云团队基于大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能近期也将上线。

本页网址：https://www.xinzhibang.net/article_detail-8830.html

寻求报道，请

关键词

分享至微信：

相关工具

万兴播爆

万兴科技推出的AI数字人口播视频营销工具

Colourlab.ai

好莱坞也在用的AI视频颜色分级工具

SteveAI

Animaker旗下AI在线视频制作工具

D-ID

AI真人口播视频生成工具

Kaiber

图片文字转视频的AI引擎

Rask

AI视频本地化解决方案

人工智能生成内容（AIGC）的发展、应用、技术原理和优势与挑战

发展历程AIGC指的是利用人工智能算法，如机器学习和深度学习，来自动创作新的内容。从最初的文本自动生成软件到现在能够创作复杂艺术作品的系统，AIGC技术经历了快速的发展。这一过程中，技术如GPT-3、DALL-E等的问世，标志着AIGC领域的重要里程碑。应用领域AIGC的应用领域广泛。在文学、艺术、

分类标签人工智能生成内容AIGC

12-09 22:11

使用TensorFlow.js进行语音识别-语音命令

迁移学习语音识别如何工作？从历史上看，图像分类是普及深度神经网络的问题，尤其是视觉类型的神经网络——卷积神经网络（CNN）。今天，迁移学习用于其他类型的机器学习任务，如NLP和语音识别。我们不会详细介绍什么是CNN以及它们是如何工作的。然而，我们可以说CNN在2012年打破了ImageNet大规模

分类标签 TensorFlow.js语音识别迁移学习卷积神经网络预训练模型语音命令

12-03 16:14

谷歌大脑团队2017年度总结

谷歌大脑团队2017年度总结作为谷歌AI帝国的重要部分，谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年他们分享了2016年的工作总结。在接下来的一年中，他们在制造智能机器的长期研究中不断取得进步，并与来自Google和Alphabet的其他团队合作，利用研究成果来为人类造福。

分类标签谷歌大脑团队人工智能机器学习

12-03 16:13

英语哑音字母发音规律

英语哑音字母发音规律学习英语哑音字母的发音规律，掌握规律可以少走弯路。哑音字母b：字母b在m之后或t之前且mb,bt处于单词的末尾时(注意：member中的b发音，因为mb不在词尾)，b往往不发音。如：(1)bomb炸弹；climb爬；comb梳子；lamb羊羔；limb手足thumb拇指。(2)d

分类标签英语哑音字母发音规律

11-30 16:15

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？在Avanto和Essenza这种机型上，操作盘是如下图所示款式。那么在这些机型上如何设置达到播放音乐的功能呢？首先把上方图中橙色框选中的（3）开关掰到CV处，否则即便后续设置好了也无法听到声音。注意：有些时候在培训初装机的现场遇到无

分类标签西门子AvantoEssenza音乐播放设置

11-30 16:14

谷歌推出基于RNN-T的全神经元设备端语音识别器解决识别延迟难题

在近二十年来，尤其是引入深度学习以后，语音识别取得了一系列重大突破，并一步步走向市场并搭载到消费级产品中。然而在用户体验上，「迟钝」可以算得上这些产品最大的槽点之一，这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前，谷歌推出了基于循环神经网络变换器（RNN-T）的全神经元设备端语

分类标签谷歌RNN-T语音识别延迟问题全神经元设备端

11-30 16:13

精准可控的AI动画制作流程

精准可控的AI动画制作流程今天给大家介绍一下被低估的AI视频制作工具Runway。这支视频大概花了半个小时，由Midjourney生成底图，然后用Runwaymotionbrush精准控制动画，从而完成创作。我花1分钟介绍一下这个工作流程。首先打开Midjourney，生成好看的底图。然后开局部重绘

分类标签 AI视频制作工具Runway动画制作

11-23 22:14

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频11月21日，Runway的Gen-2视频生成模型正式上线“运动笔刷”（MotionBrush）功能。顾名思义，它可以让一切你需求的对象元素活动起来。刷哪里，哪里就会自己动！只需对着下图的小船随手一刷，就能让被选中的目标滑行起来！

分类标签 AI视频创作工具Runway运动笔刷

11-23 22:12

视频变声的方法和工具

视频变声的方法和工具在制作视频时，有时候我们可能需要给视频添加一些特殊的音效来增加趣味性或创造特定的效果。其中，变声是一个常见的音效处理方式，可以改变视频中人物或配音的声音。使用音频编辑软件我们可以使用各种音频编辑软件来进行视频变声，例如Audacity。在软件中，我们可以使用各种效果器，实现不同的

分类标签视频变声音效处理音频编辑软件

11-13 16:20

拍乐云音频变声接口实现教程

背景介绍在泛娱乐社交和互动游戏场景中，用户已不再满足于高清的音质体验和实时的互动效果，他们还想要增加趣味性和沉浸感，让声音变得好玩有趣。拍乐云Pano上线了音频变声接口，开发者可以通过PanoSDK设置不同的变声效果，如大叔音、小姐姐音、萝莉音、山谷音、惊悚音、困兽音等，增强语聊乐趣。实现步骤1.

分类标签拍乐云音频变声PanoSDK

11-13 16:19