LLaMA: 一个开源的大型语言模型套件

新知榜官方账号

2023-09-16 00:30:37

多年来,深度学习界一直倡导开放和透明,这导致了像HuggingFace这样的大型开源项目的出现。深度学习中许多最深刻的思想(如Transformer[2]、自监督学习等)都可以在互联网上公开获取,无论是通过公共代码仓库还是Arxiv预印本。尽管开源已经成为一种常态已有一段时间,但最近大型语言模型(LLM)的受欢迎程度(以及商业应用价值)对这种趋势提出了挑战。如今,许多最强大的大型语言模型(LLM)只能通过API(例如OpenAI或Anthropic提供的)进行访问,使得研究人员和开发者无法获得其源代码和模型参数。虽然我并不打算引发关于当前LLM领域趋势的道德讨论,但这些信息与本帖子的主题——公开可用的LLM——相关。有趣的是,并非所有强大的语言基础模型都隐藏在付费墙后面。一些模型,例如LLaMA,既是公开可用的,又具有非常高的性能,从而在深度学习研究社区保持了开放性的精神。什么是LLaMA?LLaMA并不是单一的模型,而是一组具有不同参数规模的大型语言模型(LLM)套件,参数规模从70亿到650亿不等。LLaMA的设计灵感源自Chinchilla[3],这些LLM比它们的同类模型稍小,但经过了广泛的预训练(即较小的模型,更多的标记),并旨在提供一组具有不同性能和推理效率之间不同权衡的模型。LLaMA模型的表现令人惊讶,例如,130亿参数的模型与GPT-3[4]大致相当,而650亿参数的模型往往超过了PaLM[5]的性能。

LLaMA套件采用了很多流行的LLM(如GPT-3[4]和PaLM[5])中常见的架构技巧。例如,LLaMA在每个层内部执行预归一化,这意味着在变换器中,归一化应用于每个层的输入而不是输出。此外,RMSNorm、SwiGLU激活函数和旋转位置嵌入(RoPE)[10](一种绝对位置嵌入和相对位置嵌入的混合形式)在每个变换器层中都被使用。LLaMA不仅仅发布单个模型,而是提供了一系列不同规模的LLM。以往对LLM的研究往往倡导使用更大的模型,因为更大的LLM在训练过程中通常能够以更少的计算成本达到令人印象深刻的性能水平。然而,LLaMA表明我们可以在显著减少推理成本的同时达到可比较的性能水平。因此,考虑使用较小的LLM是有意义的,尤其是当我们需要部署它们时。

本页网址:https://www.xinzhibang.net/article_detail-11514.html

寻求报道,请 点击这里 微信扫码咨询

关键词

LLaMA 大型语言模型 开源

分享至微信: 微信扫码阅读

相关工具

相关文章