新知榜官方账号
2023-06-27 15:22:46
1849年,美国加州发现金矿的消息传开后,淘金热开始了。无数人涌入这片新土地,他们有的来自东海岸,有的来自欧洲大陆,还有来到美国的第一代华人移民,他们刚开始把这个地方称为「金山」,后来又称为「旧金山」。但不管如何,来到这片新土地的淘金者都需要衣食住行,当然最关键的还是淘金的装备——铲子。
正所谓「工欲善其事,必先利其器」,为了更高效地淘金,人们开始疯狂地涌向卖铲人,连带着财富。一百多年后,旧金山往南不远,两家硅谷公司掀起了新的淘金热:OpenAI第一个发现了AI时代的「金矿」,英伟达则成为了第一批「卖铲人」。和过去一样,无数人和公司开始涌入这片新的热土,拿起新时代的「铲子」开始淘金。
今年以来,仅字节跳动一家就向英伟达订购了超过10亿美元的GPU,包括10万块A100和H800加速卡。百度、谷歌、特斯拉、亚马逊、微软……这些大公司今年至少都向英伟达订购了上万块GPU。
这依然不够。旷视科技CEO印奇3月底在接受财新采访的时候表示,中国只有大约4万块A100可用于大模型训练。随着AI热潮的持续,英伟达上一代高端GPUA100的阉割版——A800在国内一度也涨到了10万元一块。
按照技术咨询机构TrendForce的测算,OpenAI需要大约3万块A100才能支持对ChatGPT的持续优化和商业化。就算从今年1月ChatGPT的新一轮爆发算起,AI算力的短缺也持续了近半年,这些大公司为什么还缺GPU和算力?
ChatGPT们缺显卡?缺的是英伟达借用一句广告语:不是所有GPU都是英伟达。GPU的短缺,实质是英伟达高端GPU的短缺。对AI大模型训练而言,要么选择英伟达A100、H100GPU,要么也是去年禁令后英伟达专门推出的减配版A800、H800。
AI的使用包括了训练和推理两个环节,前者可以理解为造出模型,后者可以理解为使用模型。而AI大模型的预训练和微调,尤其是预训练环节需要消耗大量的算力,特别看重单块GPU提供的性能和多卡间数据传输能力。但在今天能够提供大模型预训练计算效率的AI芯片(广义的AI芯片仅指面向AI使用的芯片):不能说不多,只能说非常少。
大模型很重要的一个特征是至少千亿级别的参数,背后需要巨量的算力用来训练,多个GPU之间的数据传输、同步都会导致部分GPU算力闲置,所以单个GPU性能越高,数量越少,GPU的利用效率就高,相应的成本则越低。
而英伟达2020年以来发布的A100、H100,一方面拥有单卡的高算力,另一方面又有高带宽的优势。A100的FP32算力达到19.5TFLOPS(每秒万亿次浮点运算),H100更是高达134TFLOPS。同时在NVLink和NVSwitch等通信协议技术上的投入也帮助英伟达建立了更深的护城河。到H100上,第四代NVLink可以支持多大18个NVLink链接,总带宽达900GB/s,是PCIe5.0带宽的7倍。
而英伟达的高端GPU短缺主要是因为台积电晶圆产能紧张。由于ChatGPT引发的AI热潮,基于台积电7nm工艺的A100、4nm的H100都在紧急追加订单,其中台积电5/4nm的产线已经接近满载。供应链人士也预估,英伟达大量涌向台积电的SHR(最急件处理等级)订单将持续1年。
不管是今天关心生成式AI,还是上一轮以图像识别为主的深度学习浪潮,中国公司在AI软件能力上的追赶速度都有目共睹。然而中国公司花费巨资,调转船头开向AI的时候,很少着眼于更底层的硬件。但AI加速背后,最重要的四款GPU已经有两款在国内受限,另外两款阉割的A800、H800不仅拖慢了中国公司的追赶速度,同时也无法排除受限的风险。
比起在大模型上的角逐,或许,我们更需要看到中国公司在更底层的竞争。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16