阿里云通义听悟：突破人工智能大模型技术难点的产物

新知榜官方账号

2023-09-16 22:58:28

背景

当下，基于生成式的人工智能技术（AIGC），仍然需要海量数据进行训练才能得到一个回复质量较高的模型算法，初期训练成本非常之高。这对于倾向自研基础大模型的企业是必须要过的门槛。

现在，阿里云通义听悟成为国内首个开放公测的大模型应用产品，聚焦音视频AI，具备“听力好”，能高准确度生成会议记录、区分不同发言人，“悟性高”，可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

市场需求与技术挑战

从市场需求的共性来看，企业对AI技术更关心，关心怎么跟业务融合，但同时也会有些担忧或紧张，新技术会不会对业务带来冲击。与此同时，各国对人工智能和数据获取监管的法律条文，以及对“类ChatGPT”的支持力度，也在反映这种观望态度。

对于人工智能大模型技术，存在着训练成本高、算法不稳定等技术挑战。但在阿里云CTO周靖人看来，有了通义大模型的加持，阿里将多年积累的语音技术，以及多模态的能力有机结合起来，最终形成今天的通义听悟。

通义听悟的应用场景与优势

通义听悟的定位为一款工作学习AI助手，瞄准具有高知识附加值的音视频内容场景，如开会、上课、访谈、培训、面试、直播、看视频、听播客等，能通过大模型等最新AI技术快速提炼和沉淀知识。通义听悟能够高准确度生成会议记录、区分不同发言人，形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

市场竞争与前景展望

市面上成熟的AI音视频产品并不在少数，除了讯飞、搜狗、网易有道等具备软硬件能力的服务商外，飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具，也同样具备相似的能力。但是，通义听悟通过大模型技术的突破，能够高准确度生成会议记录、区分不同发言人，形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项，具有一定的市场竞争优势。

随着人工智能技术不断发展，大模型技术将成为未来的发展趋势。同时，大模型技术也存在着训练成本高、算法不稳定等技术挑战。但是，通过大模型技术的突破，通义听悟已经实现了高准确度的语音识别和摘要能力。未来，通义听悟将会被各种各样的业务系统集成，集成到智能化服务中，开发者可根据实际场景，最终打造基于业务场景的MaaS服务。通义听悟的未来前景令人期待。

本页网址：https://www.xinzhibang.net/article_detail-11673.html

寻求报道，请

关键词

分享至微信：

相关工具

幻舟AI

一站式AI影视创作平台

Cutout.Pro

AI在线处理图片

奇妙元

AI数字人视频生成平台，由出门问问推出

Kaiber

图片文字转视频的AI引擎

Fliki

AI文字转视频并配音

Elai.io

AI文本到视频生成工具

周杰伦新歌《说好不哭》上线，AI能否模仿他的风格？

周杰伦新歌《说好不哭》火爆网络Jay迷编辑部发自凹非寺量子位报道|公众号QbitAI你今早被周杰伦刷屏了吗？新专辑单曲《说好不哭》昨晚23点上线，迅速火遍社交网络，刷屏朋友圈，27分钟上热搜第一，带火MV男主女主，一榜微博热搜里，7个都是周杰伦新歌相关……。单曲售价3元，上线7分钟，销售额破500万

分类标签周杰伦新歌AI

04-18 16:42

谷歌AI的七个“不正经”玩法

谷歌AI的七个“不正经”玩法谷歌最近发布了几只比较搞笑的AI，可以完成一些不走寻常路的工作，比如帮你实现靠脸吃饭，让你说的跟唱的一样。以下是谷歌AI的七个“不正经”玩法：说的跟唱的一样跳着舞就把琴弹了靠脸吃饭用声音画画这些玩法背后的AI动力，主要是谷歌的TensorFlow.js等工具，让机器学习技

分类标签谷歌AI不正经玩法创造力音乐可视化

04-18 16:42

AI绘图与人类绘图的优劣势分析

1. AI绘图和人类绘图的优劣势AI绘图技术通常使用机器学习和深度学习算法，可以在大量数据的基础上进行学习和模拟，从而自动生成图像。与人类绘图相比，AI绘图可以在很短的时间内生成大量图像，而且不会因为疲劳或情感变化而产生质量波动。然而，AI绘图仍然存在一些局限性。例如，由于机器无法理解艺术的概念和感

分类标签 AI绘图人类绘图机器学习

04-18 16:42

每日必看的AI前沿

每日必看的AI前沿IT之家报道，谷歌DeepMind最近推出了AI音乐生成大模型Lyria和两个新功能DreamTrack和MusicAI。用户可以使用DreamTrack输入文本提示并挑选参与的音乐人（包括AlecBenjamin、CharliePuth等），从而获得模仿音乐人风格的30秒原创音乐

分类标签 AIDeepMindCircularRingSlim

04-18 16:42

用文字创作音乐？Google最新人工智能模型MusicLM可以实现！

MusicLM的原理、特点和用途MusicLM是Google在今年一月发布的一个革命性的人工智能模型，它是基于Google的AudioLM模型开发的，它是一个专门针对音乐的语言模型。它可以理解和生成不同的音乐元素，如旋律、节奏、和声、风格等。它可以根据用户输入的文本描述，如“一段平静的吉他旋律，6/

分类标签 MusicLM人工智能音乐创作

04-18 16:42

生成式AI与仿真

生成式AI和仿真模型广泛应用于各行各业，以优化流程、为决策提供信息并创建数字孪生。几十年来，仿真模型一直被用来对复杂的系统和过程进行建模。这些模型的发展是由计算能力的进步以及收集和分析大型数据集的能力推动的。将人工智能（特别是生成式人工智能）集成到仿真模型中代表了其发展的下一步，使组织能够创建更准确

分类标签仿真模型生成式AI数字孪生优化流程决策元宇宙

04-18 16:42

Google的Lyria：人工智能音乐生成模型的未来

Lyria：人工智能音乐生成模型的未来Lyria是一个先进的人工智能音乐生成模型，它可以根据用户的输入生成高质量的歌曲，包括歌词、旋律、节奏和人声。Lyria是由GoogleDeepMind开发的，它可以模仿流行歌手的风格和声音，也可以让用户对输出的风格和表现有更细致的控制。Lyria目前正在You

分类标签 GoogleLyria人工智能音乐DreamTrack

04-18 16:42

AI绘画：StableDiffusion从入门到精通

AI绘画：StableDiffusion从入门到精通本书从艺术教育工作者和现代艺术设计师的视角，系统地介绍了人工智能绘画的相关知识与应用技能。全书内容涵盖了AI绘画的发展、原理、工具与应用，并重点围绕主流工具StableDiffusion进行详细介绍。书中深入讲解了软件的操作、指令控制、图生图技巧、

分类标签 AI绘画StableDiffusion人工智能

04-18 16:42

泡泡玛特旗下艺术推广机构innerflow首次亮相上海ART021

泡泡玛特旗下艺术推广机构innerflow首次亮相上海ART02111月11日-14日，泡泡玛特旗下艺术推广机构innerflow首次亮相上海ART021，展出多位国内外合作艺术家的画作及雕塑。innerflow创立于2021年，旨在与全球画廊、艺术家联合打造高端艺术衍生品，目前主要开发的品类有版画

分类标签 innerflow艺术衍生品ART021

12-05 02:09

哪些绘画生成app能够生成山水画效果？

绘画生成app能够生成山水画效果随着数字技术的不断发展，人们对于艺术创作的方式也发生了巨大的变化。如今，借助于智能手机和应用程序，我们可以在指尖上创造出各种令人惊叹的艺术作品。而当谈到绘画生成app时，有一个特别引人注目的功能：生成山水画效果。那么，有哪些绘画生成app能够提供这样的功能呢？本文将从

分类标签绘画生成app山水画效果美术加AIappArtFlow

12-02 22:16