StabilityAI发布开源语言模型StableLM，训练数据集达825GB

新知榜官方账号

2023-10-15 16:36:12

StabilityAI发布开源语言模型StableLM，训练数据集达825GB

StabilityAI是一家近期势头正盛的创业公司，因为开源的AI画图工具StableDiffusion而饱受好评。在本周三的发布中，该公司宣布其语言大模型StableLM现已可供开发人员在GitHub上使用和改编。

StableLM旨在高效地生成文本和代码，它在名为Pile的开源数据集的更大版本上进行训练，其中包含来自各种来源的信息，包括维基百科、StackExchange和PubMed，共22个数据集，容量达到825GB，1.5万亿个token。StableLM模型目前可用版本的参数在30亿到70亿之间，未来将有15亿到650亿范围的多种参数模型可用。

相比OpenAI的封闭，StabilityAI一直把自身定位为AI研究社区的一员，我们大概率会在StableLM上看到和上月发布的Meta开源LLaMa语言模型同样的情况。大量基于原版模型的算法可能会出现，在较小模型体量之上实现很好的效果。

StableLM的微调版聊天界面现在每个人都可以尝试在HuggingFace上托管的StableLM微调聊天模型上和AI进行对话，但StableLM模型仍然存在一些幻觉问题。虽然它使用的数据集应该有助于将基础语言模型引导到更安全的文本分布中，但并不是所有的偏见和毒性都可以通过微调来减轻。

StabilityAI表示将在不久的将来发布一份完整的技术报告，此外还将启动众包RLHF计划，并与OpenAssistant等社区合作，为AI聊天助手创建一个开源数据集。

项目链接：https://github.com/stability-AI/stableLM/

本页网址：https://www.xinzhibang.net/article_detail-16848.html

寻求报道，请

关键词

StabilityAI StableLM 语言模型

分享至微信：

相关工具

百度最新上线的AI搜索对话工具

Replika

AI对话陪伴工具

对话写作猫

秘塔写作猫推出的AI对话聊天工具

通义千问

阿里巴巴最新推出的类ChatGPT响应人类指令的大模型

Neeva

集成了AI问答的AI搜索引擎

Character.AI

创建虚拟角色并与其对话

聊天机器人入口和网页版介绍

聊天机器人入口和网页版介绍随着人工智能技术的不断发展，聊天机器人已经成为了人们日常生活中不可或缺的一部分。今天，我将介绍一些聊天机器人的入口和聊天机器人网页版。聊天机器人入口对于个人用户来说，聊天机器人的入口可能很容易找到，就是在个人账号的聊天界面中，直接与聊天机器人进行对话即可。但是，对于企业用户

分类标签聊天机器人入口网页版

11-24 16:21

MLCLLM：一款轻量化的、无需联网的聊天机器人

MLCLLM：一款轻量化的、无需联网的聊天机器人目前大多数AI聊天机器人都需要连接到云端进行处理，即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢？一个名为MLCLLM的全新开源项目已在GitHub上线，完全本地运行无需联网，甚至集显老电脑、苹果iPhone手机都能运行。

分类标签 MLCLLM聊天机器人AI

11-24 16:20

谷歌高管回应员工的质疑：AI聊天机器人Bard不仅仅是搜索而已

谷歌高管回应员工的质疑：AI聊天机器人Bard不仅仅是搜索而已财联社3月4日电，在近日举行的全体会议上，谷歌公司的高管们回答了来自该公司员工在内部论坛Dory提出的问题，其中大多数最重要的问题与该公司先前推出的人工智能(AI)聊天机器人Bard有关。该论坛有一条问题是：“Bard和ChatGPT是大

分类标签谷歌AI聊天机器人

11-24 16:19

揭示API重要性，以AssistantsAPI为例幂简集成关注

揭示API重要性，以AssistantsAPI为例幂简集成关注API是现代软件开发中不可或缺的一部分，它可以让不同的应用程序之间实现数据交换、功能调用等操作。AssistantsAPI是一款优秀的API集成工具，它可以帮助开发者快速地实现API的集成，提高开发效率。AssistantsAPI提供了丰

分类标签 APIAssistantsAPI集成

11-18 08:03

开源还是闭源，LLM的未来在哪里？

LLM的发展现状LLM是指具有大量参数和数据的语言模型，它们可以生成流畅、连贯、有意义的文本，甚至可以完成一些复杂的任务，如编程、对话、摘要等。近年来，LLM的发展迅速，各大科技公司和研究机构都在竞相推出更大、更强的LLM，如GPT-3、T5、Megatron-LM等。然而，这些LLM往往是闭源的，

分类标签 LLM开源闭源

11-10 22:27

大模型：科技领域新风口？还是下一个泡沫？

概述大模型是当前科技领域和创投界最火的风口之一，而ChatGPT则是大模型领域的明星公司。然而，大模型的落地应用和商业变现等问题仍存在，使得业内大部分的AI企业都不赚钱。本文从多角度分析大模型行业现状和未来发展。历史回顾从人工智能的首次火爆到现在，AI行业经历了从极速繁荣到资本退潮的全历程，行业也走

分类标签大模型人工智能ChatGPT

11-04 22:25

AI情感化产品：陪伴型机器人的崛起与未来

编辑导语七夕节刚过不久，衍生出了虚拟情人这样的产品。AI人工智能已经开始融入情感化，以人的灵魂陪伴着孤独的人。AI人工智能情感化，它会带来什么故事？我们一起来看看吧。一、你寂寞吗？在当下，人们渴望在复杂世界里寻求一段稳定的关系，但是又难以付出与之相对的精力，所以「陪伴型AI」成为很多人的热门选择。大

分类标签 AI情感化陪伴型机器人

10-29 10:04

自然语言编程的发展和前景

自然语言编程的发展和前景我们生活在一个编程门槛不断降低的时代，每一步进展都让编程变得更加易于学习和应用。从最初通过手工插拔电路输入程序到冯诺依曼架构的出现，我们逐渐摆脱了繁琐的硬件操作，但编程仍然是低级的汇编语言。那个时期的程序员几乎是稀有的存在，因为编程门槛实在太高了。然而，随着高级编程语言如Fo

分类标签编程门槛自然语言编程人工智能

10-18 10:18

AI自动生成代码：现实还很遥远

最近有很多关于代码在经过训练的神经网络的帮助下自己编写代码的话题，但是除了一些有限的用例之外，它变为现实仍需要相当长的一段时间——至少对于普通的开发工作来说是这样的。尽管自动代码生成并不是一个新概念，但由于在神经网络框架中具有更好的功能和易用性，它已获得了全新的关注。但就像在其他领域，人工智能被吹捧

分类标签 AI代码生成深度学习

10-18 10:16

OpenAssistant：致力于将聊天语言模型普及化的开源项目

OpenAssistant：致力于将聊天语言模型普及化的开源项目最近这段时间，一个号称全球最大ChatGPT开源平替项目OpenAssistant引起了大家的注意。这不最近还登上了GitHub的Trending热榜。根据官方的介绍，OpenAssistant也是一个对话式的大型语言模型项目，可以理解

分类标签 OpenAssistantChatGPT语言模型

10-15 16:34

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway