当前业界最优秀的8个编程大模型简介:从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

新知榜官方账号

2023-09-17 03:24:29

当前业界最优秀的8个编程大模型简介:从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常,基于代码数据训练的模型不仅在代码补全方面有着更好地支持,也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全(生成)方面而做的8个大模型。

需要注意的是,本文介绍的是编程大模型,并非代码补全插件,所以没有涉及AWS的CodeWhisper、Tabnine等。也欢迎大家补充~

1. AlphaCode

DeepMind在论文《AlphaCode:NeuralCodeGenerationwithTransformerDecoders》中首次介绍了AlphaCode。AlphaCode采用的模型和数据集目前未开源。但DeepMind提供了一个在线演示,可以输入代码注释并生成对应的Python代码:https://alphacode。deepmind。com。

在编码器端,它将代码注释转换为向量表示。在解码器端,它会生成相应的Python代码。尽管AlphaCode没有开源,但它作为第一个可以直接根据自然语言描述生成结构化代码的AI系统,在学术和产业界产生了很大反响。它展示了通过大规模无监督学习,机器学习模型可以达到编写基本代码的水平,这使得很多研究者optimistic地相信,AI最终将能达到助力程序员的目的,真正实现软件自动化生产。

2. Codex/Copilot

OpenAI的Codex是GPT-3继续训练得到的模型,OpenAI在2021年8月份公开了这个模型。而GitHub的Copilot则是GitHub与OpenAI合作推出的一个面向市场的代码补全模型,是基于Codex开发的一个代码编辑器插件,旨在帮助程序员编写代码。简单来说,Codex是一个编程大模型,而Copilot则是基于这个编程模型开发的编辑器插件。

3. CodeT5/CodeGen

2021年9月,Saleforce公布了CodeT5模型。而在2022年5月,Saleforce再次发布了一个新的编程模型CodeGen。这个模型是一系列模型,参数有4个版本:3.5亿、20亿、60亿和160亿。而训练的数据也有三个:nl版本:基于Pile数据训练multi版本:在nl基础上继续在多个编程语言组成的数据集上训练mono版本:继续在multi版本上基于Python代码数据训练。这两个模型都在HuggingFace上开源。

4. InCoder

InCoder是MetaAI在2022年4月发布的一个编程大模型。公开的模型预训练结果共2个版本,一个是67亿参数一个是13亿参数。尽管InCoder的训练数据都是开放许可代码数据,但是MetaAI的InCoder模型确实开源的不可商用的!

5. CodeGeeX

2022年9月,清华大学发布CodeGeeX。CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX在各项评测中都有很好的表现,堪称国货之光!不过,这个模型的预训练结果可以个人申请使用,不允许商用!

6. ReplitCode

ReplitCodeV1-3b是Replit发布的一个大模型,用以生成代码的工具。它支持20种编程语言,基于5250亿个tokens进行训练。训练了10天后比现有所有的开源模型效果都好(基于人工评估)。2023年5月3日,ReplitCodeV1-3b正式发布,并在HuggingFace上开源。

7. StarCoder/StarCoderBase

StarCoder是BigCode基于GitHub数据训练的一个代码补全大模型。它可以实现一个方法或者补全一行代码。而StarCodeBase则是在80多种编程语言上训练的,基于1万亿tokens的数据集训练。这两个模型的参数规模都是155亿。

8. 总结

以上8个编程大模型各有特点,应用场景也不尽相同。程序员可以根据自己的需求,选择最适合自己的模型来提高代码开发效率。

本页网址:https://www.xinzhibang.net/article_detail-11762.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章