谷歌AI年度活动:用AI生成超真实视频、推出“一千种语言计划”等重大进展

新知榜官方账号

2023-11-26 22:12:29

谷歌AI年度活动:用AI生成超真实视频、推出“一千种语言计划”等重大进展

11月3日报道,谷歌举办人工智能年度活动,并公布多项AI研究进展,包括用AI生成具有难以置信的真实性的视频、文字、图像、音频,以及用AI预防洪水、野火等自然灾害,解决社会面临的重大挑战。同时,谷歌宣布推出“一千种语言计划”,其语言模型将支持全球1000种最常用语言的模型,让更多语种受益于AI。

一、AI准确理解文字描述,生成超分辨率视频

AI已经成为高效生成文本、代码、音频、图像和视频的强大工具。谷歌介绍了两种AI生成图像模型Imagen和Parti,它们都能从文本提示生成图像。随后谷歌又公布两种互补的研究方法Phenaki和ImagenVideo,能根据文本生成短视频。其中,Phenaki可以随着文本描述(prompts)的时间变化,生成长达数分钟的连贯视频;ImagenVideo是应用于视频序列的扩散模型,在文本理解方面建立在大型Transformer语言模型之上,在高保真图像生成方面依赖于扩散模型,因此兼具高逼真度和极强的语言理解能力。谷歌ImagenVideo和Phenaki团队一直在合作制作AI生成的超级分辨率视频,将ImagenVideo和Phenaki模型结合起来时,能得到两全其美的结果:在帧级的超级分辨率和时间上的一致性。

二、写小说、3D合成、音频生成,AI样样在行

除了从文本生成视频外,谷歌也分享了其用于协作的可控文本生成项目LaMDAWordcraft,可帮助产生一些新的想法或重写句子,来为作家提供协作灵感。为了测试LaMDAWordcraft的能力,谷歌与专业作家合作组成研讨会,让他们使用探索写作的文本生成项目Wordcraft编辑器来创作一卷短篇小说,来试验AI文本生成的能力。谷歌研发了一个预训练的2D文本到图像的扩散模型DreamFusion。给定一个描述生成,DreamFusion就能生成具有高保真外观、深度和法线且能够在不同光照条件下进行渲染的3D模型。在音频生成方面,谷歌有一个全新的音频生成框架AudioLM。这是一个纯音频模型,在没有任何文字或音乐符号表示的情况下进行训练,可以只根据简短的音频样本学习生成逼真的、高质量的语音和音乐。

三、推出“一千种语言计划”,让AI助攻全球语言

谷歌推出“一千种语言计划”,以支持全球1000种最常用语言的模型。谷歌将这比作“登月行动”,希望以此为世界各地边缘化群体的数十亿人带去更大的包容性。谷歌正在研究更先进的模型,能直接处理基于语言的信息,跨越图像、视频和语音等多种模态。例如,谷歌已经开发了一个通用语言模型(UniversalSpeechModel),它支持400多种语言,是迄今覆盖语种最多的语言模型。

四、AI预警洪水,能精确大约100米的范围

谷歌启动洪水预测项目,通过引入AI技术,为人们提供准确而详细的警报,以抵御每年洪水带来的灾难性损失。谷歌洪水预测系统可精确到大约100米的范围,即大概精确到一个村庄或一个社区。人们能直接在谷歌地图上看到这些信息,及时做出响应。谷歌宣布该系统将扩展到18个新的国家,包括巴西、哥伦比亚、斯里兰卡、布基纳法索、喀麦隆、乍得、刚果民主共和国、象牙海岸、加纳、几内亚、马拉维、尼日利亚、塞拉利昂、安哥拉、南苏丹、纳米比亚、利比里亚、南非等。

五、实时火灾追踪,及时扑救野火

谷歌野火团队使用卫星图像来训练机器学习模型,使其能从空间和时间的维度去识别野火,并及时告知其用户野火发生的地点。其野火追踪项目已在澳大利亚、美国、加拿大和墨西哥上线。谷歌正在研究的3个模型:1、实时火灾追踪;2、火灾蔓延预测;3、早期野火探测。

六、为产妇和视网膜疾病筛查带来福音

谷歌正通过引入AI技术,帮助呵护产妇健康和加强糖尿病视网膜病变等眼部疾病问题的筛查。谷歌在国际学术顶刊Nature的子刊NatureCommunicationsMedicine上发表了一篇论文,展示了AI如何帮助读取和分析低成本超声设备的数据。此外,谷歌还与美国西北大学医学院合作开发AI,协助护士和助产士轻松地收集和解释超声图像。谷歌还在加强眼科筛查计划,利用其自动视网膜疾病评估工具(ARDA)进行筛查。

本页网址:https://www.xinzhibang.net/article_detail-21158.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌 人工智能 AI 视频生成 语言计划 洪水预警

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯