谷歌云推出全新TPUv5e,加速AI训练和推理

新知榜官方账号

2023-08-31 01:26:54

谷歌云推出全新TPUv5e,加速AI训练和推理

一直以来,谷歌已经构建了业界领先的AI能力,比如引领新一代人工智能发展的Transformer架构、利用AI进行优化的基础设施等。其中谷歌云则致力于提供先进的AI基础设施服务,包括GPU和TPU。当地时间8月29日,谷歌云举办了GoogleCloudNext’23年度大会,推出了全新的TPU产品——CloudTPUv5e,它是AI优化的基础设施产品组合,并将成为迄今为止最具成本效益、多功能且可扩展的云TPU。目前已经提供了预览版。

我们了解到,TPUv5e能够与GoogleKubernetesEngine(GKE)、用于构建模型和AI应用的开发者工具VertexAI以及Pytorch、JAX、TensorFlow等深度学习框架集成在一起,提供了易用和熟悉的界面,很容易上手。谷歌云还推出了基于英伟达H100GPU的GPU超级计算机A3VMs,为大规模AI大模型提供支持。这款产品将于9月份全面上市。

根据官方提供的数据,CloudTPUv5e为中型和大型训练和推理带来了高性能和成本效益。这代TPU可以说专为大语言模型和生成式AI模型打造,与前代TPUv4相比,每美元训练性能提升高达2倍、每美元推理性能提升高达2.5倍。并且TPUv5e的成本不到TPUv4的一半,使更多机构有机会训练和部署更大、更复杂的AI模型。

TPUv5e还具有很强的多功能性,支持八种不同的虚拟机配置,单片内芯片数量可以从一个到256个,允许客户选择合适的配置来支持不同规模的大语言模型和生成式AI模型。除了更强功能和成本效益之外,TPUv5e的易用性也达到了一个全新的高度。现在客户可以通过GoogleKubernetesEngine(GKE)来管理TPUv5e以及TPUv4上的大规模AI工作负载编排,进而提升AI开发效率。对于喜欢简单托管服务的机构而言,VertexAI现在支持使用CloudTPU虚拟机来训练不同的框架和库了。

最后为了更轻松地扩展训练工作,谷歌云在TPUv5e预览版中引入了Multislice技术,使用户轻松扩展AI模型,并且可以超出物理TPUpods的范围,最多可以容纳数万个TPUv5e或TPUv4芯片。这种多层切片技术为谷歌构建其最先进的PaLM模型提供了支持。现在谷歌云客户也能体验这一技术了。

本页网址:https://www.xinzhibang.net/article_detail-10628.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌云 TPUv5e AI训练

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯