新知榜官方账号
2023-10-07 10:03:23
过去数年,AI模型的参数发生了极大变化。尤洋指出,从2016年至2021年1月,AI模型的参数量是每18个月增长40倍;从2018年1月到2021年1月,AI大语言模型的参数量每18个月增长340倍。而相形之下,2016年1月至2021年1月间,GPU的内存增长每18个月仅有1.7倍。由此可见,训练成本高、周期长,是当前大模型发展最需要克服的难题。针对这一问题,尤洋提出了Colossal-AI系统,从高效内存系统、N维并行系统和大规模优化三个层次出发,以实现同样的设备条件下将数据移动的最小化,将GPU的吞吐量扩大至最高点。尤洋还指出,现阶段的模型参数量以10万倍扩大、但层数增加不多,这或意味着:如今的AI发展可能不再是深度学习、而是进入了宽度学习时代。在模型变得更宽的情况下,面对大规模、长时间的GPU训练任务,大模型训练系统的核心将是如何实现GPU并行计算,以实现大模型训练越快越省钱的目标。以下为尤洋的现场演讲内容,雷峰网作了不改变原意的编辑及整理:
图上的横坐标是时间,纵坐标是AI模型的参数量。从2016年至2021年1月,AI大模型的参数量大概每18个月增长40倍;从2018年1月到2021年1月,AI模型的参数量每18个月增长340倍。2016年,当时世界上最好的模型是ResNet-50,而今天最好的模型是GPT-4。从架构上来看,虽然OpenAI没有对外公布GPT-4的架构,但对比ResNet-50的50层神经网络和GPT-3未达100层的架构,可以说AI模型近年来的层数并没有产生的太大的变化。从ResNet-50到GPT-4,虽然参数量大了10万倍左右,其实是每一层都变得更加宽了。包括LLaMA-65B版本,也是几十层的网络。所以我们可能不是深度学习,而是进入了一个宽度学习时代。可以看到,自2019年开始,Transformer架构基本统一了AI大模型赛道,当前最高效的AI大模型均是Transformer架构。上图中的两条虚线,既展示了大模型参数的变化趋势,实际上也展现了GPU的变化趋势。虽然现在英伟达的股价涨了很多倍,但包括英伟达在内的厂商,其GPU内存的增长速度远跟不上大模型的发展速度。相较于过去六年模型参数量的增长速度变化,2016年1月至2021年1月间,英伟达GPU的计算增长速度每18个月仅增长了1.7倍。以A10080G为例计算GPT-3训练所需的内存数,GPT-3有大概1750亿参数,为方便计算取整数2000亿,等于200乘以10的9次方,每个单精度占用4个字节,仅参数就要占800G内存,梯度也占了800G内存。按照当前的优化方法储存一阶矩(firstmoment)、二阶矩(secondmoment)等信息均为800G。也就是说,如果训练一个什么事情都不干大模型,至少需要几T的内存,单个A100GPU仅80G内存远远不够,加上中间结果的batchsize越大,内存开销也越大。这也是为什么从内存角度上看,训练大模型首先需要有成千上万个GPU的原因。
PaLM是一个5400亿的大模型,根据当前云计算市场价,训练PaLM需要承包至少1000个GPU,成本约900多万美金。而Meta此前曾明确提到,LLaMA需要使用到2000个A100GPU,并且用三周时间才可完成一次训练,由此计算可得出LLaMA单次训练的成本在500万美金。但由于炼大模型并不仅限于一次训练,可能一个好的大模型产品迭代至少需要五六次,前期都是在试错。因此,据公开渠道分析,GPT-4单次训练成本在6000万美金左右,且训练一次需要至少几个月时间。这也是为什么目前ChatGPT即便将其升级至最新版本,其底层还是2021年9月版本的模型。也就是说,从2021年9月至今,OpenAI实质上并没有升级其产品,根本原因就在于,模型的每次训练不仅成本很高,训练周期也很长,因此大模型训练的代价高就非常严重。
设想一个问题,今天有一个1万亿参数以及1000亿参数的大模型,我们能否用什么方法,去检测万亿参数大模型比千亿参数大模型二者哪个效果更好?也即是目前常说的,模型参数量增大、到底要增大到什么程度?到今天而言,我觉得这个问题暂时无法用科学回答。原因有几个。首先,训练神经网络存在非凸优化的问题,目前训练所收敛的点多为局部最优解、而非全局最优解。因此,我们要验证神经网络训练到什么程度,在现有计算资源情况下是无法验证的。第二个难度在于,大模型训练往往只训练一两个epoch,而此前的CNN模型中,ResNet训练有90个epoch,甚至自监督学习训练有1000个epoch,因此大模型只训练一两个epoch的方式,相当于只将数据集过了一两遍,收敛就更不充分了。因此在训练成本如此之高的情况下,我们很难验证,一个1万亿参数的模型和2万亿参数的模型二者谁更好,因为它们潜力都没有能通过实验得到充分发挥。因此我认为,今天AI大模型是一个实验性学科,如何能高效提升这个实验的效率,降低成本,对整个行业的普及具有根本性的作用。
针对上述问题,尤洋提出了Colossal-AI系统,从高效内存系统、N维并行系统和大规模优化三个层次出发,以实现同样的设备条件下将数据移动的最小化,将GPU的吞吐量扩大至最高点。其中,Colossal-AI主打2D张量并行和2.5D张量并行,将计算成本降低了一个数量级。在内存优化方面,Colossal-AI也推出了SequenceParallelism(序列并行)。目前AI大模型训练的核心技术栈,其实就是并行计算,因为我们要处理成百上千上万个GPU核心,把所有GPU并行利用起来。数据并行、张量并行、流水线并行以及数据序列并行是并行中较为核心的模块。在性能上,Colossal-AI在同样的硬件上可以训练24倍大的模型,相对于DeepSpeed的3倍加速,即便是一个低端的服务器,也可以借助Colossal-AI完成相应的模型训练。
Colossal-AI是一个开源软件,同时我们也做了一个商业化的平台,对没有GPU的用户,可以直接在平台上去训练部署自己的大模型。我们也提供了LLaMA、PaLM、GPT等各种模型,最快仅需两三天就可完成一个模型微调。同时,Colossal-AI也保护用户的隐私,平台不会保留、访问用户数据,这是Colossal-AI与OpenAIChatGPT的本质区别。我们将数据上传至GoogleCloud时,很多时候Google并没有碰我们的数据,但是OpenAIGPT会进行分析,AI模型的不可解释性、训练不彻底等风险普遍存在。因此,未来也会有很多企业训练自己的大模型,Colossal-AI做的,是最大化保护用户的隐私,同时提供大模型训练的工具。
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28