开源大型语言模型列表
大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。
使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。
本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助。
SAIL7B基于LLaMa的搜索增强
- 参数:7B
- 许可类型:GPL-3.0
- 发布日期:2023年5月
- 论文:SAIL—SearchAugmentedInstructionLearning
Guanaco采用高效微调方法QLoRA发布的LLM模型
- 参数:65B
- 许可类型:MIT
- 发布日期:2023年5月
- 论文:QLoRA—EfficientFinetuningofQuantizedLLMs
RNN模型RMKV与transformer的LLM性能相当
- 参数:100M–14B
- 许可类型:Apache2.0
- 发布日期:2023年5月
- 论文:ScalingRNNto1.5BandReachTransformerLMPerformance
MosaicML的基础系列模型
- 参数:7B
- 许可类型:Apache2.0
- 发布日期:2023年5月
- 论文:MPT-7B—ANewStandardforOpen-Source,CommerciallyUsableLLMs
OpenLLaMa在RedPajama数据集上训练的MetaAI的LLaMA7B的另一个开源复制。
- 参数:3,7B
- 许可类型:Apache2.0
- 发布日期:2023年5月
- 论文:MeetOpenLLaMA—AnOpen-SourceReproductionofMetaAI’sLLaMALargeLanguageModel
Pythia模型基于RedPajama数据集上训练的指令调整和聊天
- 参数:3B,7B
- 许可类型:Apache2.0
- 发布日期:2023年5月
- 论文:RedPajama-INCITEfamilyofmodelsincludingbase,instruction-tuned&chatmodels
H2O的微调框架和文档问答功能的聊天机器人
- 参数:12B,30B
- 许可类型:Apache2.0
- 发布日期:2023年5月
- 论文:BuildingtheWorld’sBestOpen-SourceLargeLanguageModel:H2O.ai’sJourney
FastChat-T5通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人
- 参数:3B
- 许可类型:Apache2.0
- 发布日期:2023年4月
- 论文:FastChat-T5—ourcompactandcommercial-friendlychatbot!
GPT4All用于训练和部署强大的定制llm的完整工具系统
- 参数:7–13B
- 许可类型:MIT
- 发布日期:2023年4月
- 论文:GPT4All:Anecosystemofopen-sourceon-edgelargelanguagemodels.
MiniGPT-4基于BLIP-2和VicunaLLM的VisualLLM模型
- 参数:13B
- 许可类型:BSD-3-Clause
- 发布日期:2023年4月
- 论文:MiniGPT-4—EnhancingVision-LanguageUnderstandingwithAdvancedLargeLanguageModels
StableLM的LLM模型系列
- 参数:7B
- 许可类型:CCBY-NC-SA-4.0
- 发布日期:2023年4月
- 论文:StabilityAILaunchestheFirstofitsStableLMSuiteofLanguageModels
BloomZ通过多任务微调实现跨语言泛化
- 参数:176B
- 许可类型:Apache2.0
- 发布日期:2023年4月
- 论文:Cross-lingualGeneralizationthroughMultitaskFinetuning
DollyPythia12BLLM在DatabricksML平台上训练的模型
- 参数:12B
- 许可类型:Apache2.0
- 发布日期:2023年4月
- 论文:FreeDolly—IntroducingtheWorld’sFirstTrulyOpenInstruction-TunedLLM
BaizeChatbot基于LLaMa的开源聊天模型
- 参数:30B
- 许可类型:GPL-3.0license
- 发布日期:2023年4月
- 论文:Baize—AnOpen-SourceChatModelwithParameter-EfficientTuningonSelf-ChatData
ColossalChat由ColossalAI开源发布的一个完整的RLHF流程训练的模型
- 参数:N/A
- 许可类型:Apache2.0
- 发布日期:2023年4月
- 论文:ColossalChat—AnOpen-SourceSolutionforCloningChatGPTWithaCompleteRLHFPipeline
LitLLaMa来自LightningAI的LLaMA的开源实现
- 参数:13B
- 许可类型:Apache2.0
- 发布日期:2023年4月
- 论文:WhyWe’reBuildingLit-LLaMA
Cerebras-GPT开放的,计算效率高的,大型语言模型
- 参数:111M-13B
- 许可类型:Apache2.0
- 发布日期:2023年3月
- 论文:Cerebras-GPT—OpenCompute-OptimalLanguageModelsTrainedontheCerebrasWafer-ScaleCluster
OpenFlamingoDeepmind的Flamingo模型的开源实现
- 参数:9B
- 许可类型:MITLicense
- 发布日期:2023年3月
- 论文:Openflamingo—AnOpen-sourceFrameworkForTrainingVision-languageModelsWithIn-contextLearning
ChatGLM使用开放式双语(中英文)双向密集预训练模型
- 参数:6B-130B
- 许可类型:Apache2.0
- 发布日期:2023年3月
- 论文:GLM-130B:AnOpenBilingualPre-trainedModel
DLite通过微调Alpaca数据集上最小的GPT-2模型
- 参数:124M
- 许可类型:Apache2.0
- 发布日期:2023年3月
- 论文:IntroducingDLite,aLightweightChatGPT-LikeModelBasedonDollyAlpaca7B
斯坦福大学发布的指令遵循LLaMA模型
- 参数:7B
- 许可类型:Apache2.0
- 发布日期:2023年3月
- 论文:Alpaca—AStrong,ReplicableInstruction-FollowingModel
FlanUL2在预训练的UL2检查点上训练Flan20B模型。
- 参数:20B
- 许可类型:MITLicense
- 发布日期:2023年3月
- 论文:ANewOpenSourceFlan20BwithUL2
T5在各种数据集上的指令微调,提高预训练语言模型的可用性
- 参数:60M–11B
- 许可类型:Apache2.0
- 发布日期:2023年2月
- 论文:ScalingInstruction-FinetunedLanguageModels
FreeWilly2
最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的FreeWilly2,它是在Llama270B上微调的结果,目前在open_llm_leaderboard上排第一。
结论
开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。