通义听悟:一个大模型版的聚焦音视频内容的工作学习AI助手

新知榜官方账号

2023-07-01 08:52:23

通义听悟是一个基于大模型能力的聚焦音视频内容的工作学习AI助手,能够实时转录和翻译音视频,提取关键词和全文摘要,支持英文和中文,并且具有区分多人讨论发言人的能力。该工具还可以将音视频内容一键保存到云盘并自动显示字幕。同时,通义听悟还提供了Chrome插件功能,可以实现实时字幕和翻译,方便用户学习和工作。 该工具背后的技术包括大语言模型、语音SOTA和CAM++说话人识别基础模型等。大语言模型能够准确抽取关键信息,通过ELHF方法实现格式对齐,而CAM++说话人识别基础模型则可以区分多人讨论发言人。此外,通义听悟还使用了Paraformer语音识别模型,该模型在推理效率和识别准确率方面都具有优势。 对于用户来说,通义听悟的功能非常实用。用户可以在看英文视频、直播、上课开会等场景下使用Chrome插件实现实时字幕和翻译,同时可以将音视频内容一键保存到云盘并自动显示字幕,方便后续使用。此外,通义听悟还能够提取关键词和全文摘要,并区分多人讨论发言人,使用户更加方便地了解音视频内容。

本页网址:https://www.xinzhibang.net/article_detail-3756.html

寻求报道,请 点击这里 微信扫码咨询

关键词

通义听悟 大模型 音视频记录 AI助手 阿里

分享至微信: 微信扫码阅读

相关工具

相关文章