ColossalAI低成本复现ChatGPT训练流程,提供开源完整基于PyTorch的ChatGPT等效实现流程

新知榜官方账号

2023-09-16 00:38:46

ColossalAI低成本复现ChatGPT训练流程,提供开源完整基于PyTorch的ChatGPT等效实现流程

ColossalAI开源并行训练系统表示,已低成本复现了一个ChatGPT训练的基本流程,包括stage1预训练、stage2的奖励模型的训练,以及最为复杂的stage3强化学习训练。具体亮点包括:一个开源完整的基于PyTorch的ChatGPT等效实现流程,涵盖所有3个阶段,可以帮助你构建基于预训练模型的ChatGPT式服务。提供了一个迷你演示训练过程供用户试玩,它只需要1.62GB的GPU显存,并且可能在单个消费级GPU上实现,单GPU模型容量最多提升10.3倍。与原始PyTorch相比,单机训练过程最高可提升7.73倍,单GPU推理速度提升1.42倍,仅需一行代码即可调用。

在微调任务上,同样仅需一行代码,就可以在保持足够高的运行速度的情况下,最多提升单GPU的微调模型容量3.7倍。提供多个版本的单GPU规模、单节点多GPU规模和原始1750亿参数规模。还支持从HuggingFace导入OPT、GPT-3、BLOOM和许多其他预训练的大型模型到你的训练过程中。

ColossalAI是一个具有高效并行化技术的综合大规模模型训练系统;旨在无缝整合不同的并行化技术范式,包括数据并行、管道并行、多张量并行和序列并行。其声称已通过ZeRO、Gemini、Chunk-based内存管理等技术,极大地降低ChatGPT训练的显存开销;仅需一半硬件资源即可启动1750亿参数模型训练(从64卡到32卡),显著降低应用成本。若使用上述相同硬件资源,Colossal-AI则能以更短时间进行训练,节省训练成本,加速产品迭代。

为了让更多开发者体验复现ChatGPT模型,除1750亿参数版本外,Colossal-AI还提供高效的单GPU、单机4/8GPU的类ChatGPT版本,以降低硬件限制。博客内容还指出,在单机多GPU服务器上,即便使用最高端的A10080GB显卡,由于ChatGPT的复杂性和内存碎片,PyTorch最大仅能启动基于GPT-L(774M)这样的小模型的ChatGPT。用PyTorch原生的DistributedDataParallel(DDP)进行多卡并行扩展至4卡或8卡,性能提升有限。Colossal-AI不仅在单GPU速度上训练和推理优势明显,随着并行规模扩大还可进一步提升,最高可提升单机训练速度7.73倍,单GPU推理速度1.42倍;并且能够继续扩展至大规模并行,显著降低ChatGPT复现成本。

为了最大限度地降低培训成本和易用性,Colossal-AI提供了可以在单个GPU上试用的ChatGPT培训流程。与在14999美元的A10080GB上最多只能启动7.8亿个参数模型的PyTorch相比,Colossal-AI将单个GPU的容量提升了10.3倍,达到80亿个参数。对于基于1.2亿参数的小模型的ChatGPT训练,至少需要1.62GB的GPU内存,任意单个消费级GPU都可以满足。此外,Colossal-AI还在致力于降低基于预训练大型模型的微调任务的成本。以ChatGPT可选的开源基础模型OPT为例,Colossal-AI能够在单GPU上将微调模型的容量提高到PyTorch的3.7倍,同时保持高速运行。Colossal-AI为HuggingFace社区的GPT、OPT和BLOOM等主流预训练模型,提供了开箱即用的ChatGPT复现代码。以GPT为例,仅需一行代码,指定使用Colossal-AI作为系统策略即可快速使用。

本页网址:https://www.xinzhibang.net/article_detail-11518.html

寻求报道,请 点击这里 微信扫码咨询

关键词

ColossalAI ChatGPT 训练流程

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯