谷歌Gemini:一种多模态和高效的机器学习工具

新知榜官方账号

2023-09-16 01:26:54

今年5月的谷歌I/O大会上,皮查伊宣布了对标GPT-4的大模型PaLM2,但同时也提到谷歌的研究重心正在转向Gemini,后者是一种多模态和高效的机器学习工具。为了更快地开发Gemini,谷歌在今年4月份合并了内部的两个人工智能实验室:谷歌大脑(GoogleBrain)和DeepMind,Gemini这项联合计划就由来自两个实验室的研究人员组成的团队牵头。

接下来几个月,Gemini的神秘面纱一点点被揭开:我们大概知道该模型是在GoogleBrain和DeepMind合并之后开始研发的,将具有像GPT-4一样的万亿参数;Gemini在训练中已经展示出了以往模型中从未见过的多模态能力;一旦经过微调和严格的安全性测试,谷歌同样将提供不同尺寸和功能的Gemini版本,以确保部署在不同的产品、应用和设备上。

最新消息是,据三位直接知情人士透露,谷歌已经允许一小部分公司使用Gemini软件的早期版本,意味着谷歌即将将其纳入消费者服务,并通过公司的云计算服务出售给企业。能否超越GPT-4?

SemiAnalysis分析师DylanPatel和DanielNishball透露,初代的Gemini应该是在TPUv4上训练的,并且这些pod并没有集成最大的芯片数—4096个芯片,而是使用了较少的芯片数量,以保证芯片的可靠性和热插拔。如果所有14个pod都在合理的掩模场利用率(MFU)下使用了约100天,那么训练Gemini的硬件FLOPS将超过1e26。不过,Gemini已开始在新的TPUv5Pod上进行训练,算力高达~1e26FLOPS,比训练GPT-4的算力还要大5倍。另外,Gemini的训练数据库为Youtube上93.6亿分钟的视频字幕,总数据集大小约为GPT-4的两倍。

Gemini由一组大型语言模型组成,可能使用MOE架构与投机采样(SpeculativeSampling)技术,通过小模型提前生成token传输至大模型进行评估,提高模型总推理速度。从能力上说,Gemini支持从聊天机器人到总结文本或生成原始文本(如电子邮件草稿、歌词或新闻文章)的各种功能,这些功能都是基于对用户想要阅读的内容的描述。此外,Gemini还能帮助软件工程师编写代码,并根据用户的要求生成原始图片。

谷歌员工还讨论过利用Gemini来实现图表分析等功能,比如要求模型解释完成图表的含义,以及使用文本或语音指令来浏览网页浏览器或其他软件。一位测试过GPT-4的人士说,Gemini至少在一个方面比GPT-4更具优势:除了网络上的公共信息外,Gemini利用了谷歌从其消费产品中获取的大量专有数据。因此,该模型在理解用户对特定查询的意图时应该会特别准确,而且它似乎会产生较少的错误答案(即幻觉)。

谷歌云服务迎头赶上的机会自今年年初OpenAI开始出售GPT-4的访问权限以来,谷歌近几个月来一直在积极地将其现有的商用模型提供给更多的开发者。今年5月,谷歌宣布将通VertexAI向谷歌云客户提供PaLM2。另一位知情人士说,谷歌计划通GoogleCloudVertexAIservice向企业提供「Gemini」,包含不同大小的版本,这样开发者就可以选择付费购买一个不太复杂的版本来处理简单的任务,或者购买一个足够小的版本在个人设备上运行。这位知情人士补充说,谷歌目前让开发者使用的是相对较大的Gemini版本,但不是正在开发的最大版本,后者更接近于GPT-4。

对谷歌来说,Gemini的发布事关重大。谷歌花费了大量的计算资源和人力来开发它作为与OpenAI竞争的利器,希望这款软件除了促进其云服务器租赁业务外,还能为从Bard聊天机器人到Workspace软件的新功能提供支持。据TheInformation报道,OpenAI和其他软件公司(如帮助公司开发和使用人工智能的Databricks)也预测,它们将从对话式AI中获得可观的收入。然而,开源大模型的崛起可能会削弱谷歌和OpenAI出售其专有模型访问权的关注度。也许某天一觉醒来,Gemini已经正式发布,届时它的神秘面纱将被彻底揭开。谷歌能否凭借Gemini扭转局势?我们只需耐心等待。

本页网址:https://www.xinzhibang.net/article_detail-11540.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌 Gemini 机器学习 多模态 人工智能 GPT-4

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯