英伟达GPU的短缺:为什么大公司缺GPU和算力?

新知榜官方账号

2023-06-27 15:22:46

1849年,美国加州发现金矿的消息传开后,淘金热开始了。无数人涌入这片新土地,他们有的来自东海岸,有的来自欧洲大陆,还有来到美国的第一代华人移民,他们刚开始把这个地方称为「金山」,后来又称为「旧金山」。但不管如何,来到这片新土地的淘金者都需要衣食住行,当然最关键的还是淘金的装备——铲子。

正所谓「工欲善其事,必先利其器」,为了更高效地淘金,人们开始疯狂地涌向卖铲人,连带着财富。一百多年后,旧金山往南不远,两家硅谷公司掀起了新的淘金热:OpenAI第一个发现了AI时代的「金矿」,英伟达则成为了第一批「卖铲人」。和过去一样,无数人和公司开始涌入这片新的热土,拿起新时代的「铲子」开始淘金。

今年以来,仅字节跳动一家就向英伟达订购了超过10亿美元的GPU,包括10万块A100和H800加速卡。百度、谷歌、特斯拉、亚马逊、微软……这些大公司今年至少都向英伟达订购了上万块GPU。

这依然不够。旷视科技CEO印奇3月底在接受财新采访的时候表示,中国只有大约4万块A100可用于大模型训练。随着AI热潮的持续,英伟达上一代高端GPUA100的阉割版——A800在国内一度也涨到了10万元一块。

按照技术咨询机构TrendForce的测算,OpenAI需要大约3万块A100才能支持对ChatGPT的持续优化和商业化。就算从今年1月ChatGPT的新一轮爆发算起,AI算力的短缺也持续了近半年,这些大公司为什么还缺GPU和算力?

ChatGPT们缺显卡?缺的是英伟达借用一句广告语:不是所有GPU都是英伟达。GPU的短缺,实质是英伟达高端GPU的短缺。对AI大模型训练而言,要么选择英伟达A100、H100GPU,要么也是去年禁令后英伟达专门推出的减配版A800、H800。

AI的使用包括了训练和推理两个环节,前者可以理解为造出模型,后者可以理解为使用模型。而AI大模型的预训练和微调,尤其是预训练环节需要消耗大量的算力,特别看重单块GPU提供的性能和多卡间数据传输能力。但在今天能够提供大模型预训练计算效率的AI芯片(广义的AI芯片仅指面向AI使用的芯片):不能说不多,只能说非常少。

大模型很重要的一个特征是至少千亿级别的参数,背后需要巨量的算力用来训练,多个GPU之间的数据传输、同步都会导致部分GPU算力闲置,所以单个GPU性能越高,数量越少,GPU的利用效率就高,相应的成本则越低。

而英伟达2020年以来发布的A100、H100,一方面拥有单卡的高算力,另一方面又有高带宽的优势。A100的FP32算力达到19.5TFLOPS(每秒万亿次浮点运算),H100更是高达134TFLOPS。同时在NVLink和NVSwitch等通信协议技术上的投入也帮助英伟达建立了更深的护城河。到H100上,第四代NVLink可以支持多大18个NVLink链接,总带宽达900GB/s,是PCIe5.0带宽的7倍。

而英伟达的高端GPU短缺主要是因为台积电晶圆产能紧张。由于ChatGPT引发的AI热潮,基于台积电7nm工艺的A100、4nm的H100都在紧急追加订单,其中台积电5/4nm的产线已经接近满载。供应链人士也预估,英伟达大量涌向台积电的SHR(最急件处理等级)订单将持续1年。

不管是今天关心生成式AI,还是上一轮以图像识别为主的深度学习浪潮,中国公司在AI软件能力上的追赶速度都有目共睹。然而中国公司花费巨资,调转船头开向AI的时候,很少着眼于更底层的硬件。但AI加速背后,最重要的四款GPU已经有两款在国内受限,另外两款阉割的A800、H800不仅拖慢了中国公司的追赶速度,同时也无法排除受限的风险。

比起在大模型上的角逐,或许,我们更需要看到中国公司在更底层的竞争。

本页网址:https://www.xinzhibang.net/article_detail-1654.html

寻求报道,请 点击这里 微信扫码咨询

关键词

英伟达 GPU 算力 AI 芯片 台积电

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯