百度智能云在中文大模型数据标注产业建设上迈出重要一步

新知榜官方账号

2023-08-29 02:43:17

百度智能云在中文大模型数据标注产业建设上迈出重要一步

具备高度智能的ChatGPT,能否正确运用自己海量的知识,却要取决于一群时薪不到2美元的肯尼亚劳工。他们所做的工作——数据标注,不仅是ChatGPT能够领先竞争对手的重要原因,也有着重要的伦理意义。数据标注师们自己的价值观,同样决定了人工智能的价值观,决定了AI能否被善意地运用。

在百度智能云数据标注基地业务产品负责人胡驰看来,人工标注将是大模型训练中绝对无法被替代的一部分。而对于中国大模型企业来说,这项严重依赖劳动力个人素质的工作,或许也是独特的竞争优势所在。近日,百度在中文大模型的数据标注产业建设上迈出重要一步。

位于海口市秀英区的百度智能云(海口)人工智能基础数据产业基地正式启动运营,这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心。百度智能云大模型数据标注师董志焕介绍到:”我们的主要工作就是对大模型生成的内容进行评价、反馈,通过这些人工标注数据,让大模型学习人类的思维方式,从而使大模型更加聪明。”

当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。以ChatGPT、文心一言为代表的生成式AI,不仅需要海量的数据训练,更需要人工标注、指令微调、基于人类反馈的强化学习(RLHF),才能够让大模型与人类价值观、思维方式不断对齐,使大模型更加可用。为此,百度智能云升级了大模型数据服务能力,建设了国内首个专业大模型数据标注基地。

尽管数据标注听上去是一个依赖简单重复劳动的工作,但是一旦深入工作细节便会发现,它同样需要很高的技术含量。对于语言类大模型,更需要劳动者具有高超的语言理解能力和逻辑推理能力。百度智能云海口数据标注基地现拥有数百名专职大模型数据标注师,标注师的本科率达到100%。相比于传统的数据标注,语言类大模型对劳动者技能提出了更高的要求。

百度自研的高效标注系统,则进一步提升了数据标注效率。为提高数据标注的质量和效率,百度智能云自主研发了业内领先的大模型数据标注平台,支持从大模型微调、强化学习到模型评估的数据生产闭环。在人工标注之前,平台会首先进行自动化的预审核,对数据的行业特征进行分类,确保数据交到更合适的审核员手上。结合平台独有的人机协同标注、多轮智能审核等智能化工具,百度可大幅提升数据标注的产能和质量,同时帮助企业实现降本增效。

数据标注质量,是许多大模型企业所关注的重要问题。以ScaleAI为代表,海外已经诞生了一些数据标注行业的独角兽公司。2022年,ScaleAI营收达到2.9亿美元,毛利率更是高达70%。数据标注质量,是ScaleAI为OpenAI等大模型企业提供的最大价值。百度也正在全面提升中文大模型的标注质量。刘小莹向观察者网介绍,除了自己负责的第一道标注工序之外,层层审核也是保证标注质量的重要环节。在数据标注公司内部,有资深标注师对所有标注数据进行全面复核,而百度自己也有庞大的审核团队,最终把握数据质量。涉及到专业领域知识时,也有相关行业专家提供支持。

随着数据标注基地等“智能新基建”的建设,百度“千帆大模型平台”将更好地向社会提供服务。据悉,百度智能云将在9月全面升级大模型服务。8月,百度智能云宣布,千帆大模型平台升级,接入包括文心一言、Llama2全系列、ChatGLM2-6B等在内的33个国内外最主流的大模型,成为国内拥有大模型最多的平台。

本页网址:https://www.xinzhibang.net/article_detail-10522.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章