AI价值对齐:如何确保人工智能与人类的价值相一致?

新知榜官方账号

2023-08-24 01:31:43

AI价值对齐

随着人工智能进入大模型时代后,各种“类人”和“超人”能力持续涌现,其自主性、通用性和易用性快速提升,成为经济社会发展的新型技术底座。有机构预测,大模型将深入各行各业,每年为全球经济增加2.6万亿到4.4万亿美元的价值。然而,随着大模型(又称为基础模型)开始像人类一样从事广泛的语言理解和内容生成任务,人们需要直面一个最根本的、颇具科学挑战的问题:如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。这个问题被称为“价值对齐”(value alignment,或AIalignment)。价值对齐是AI安全的一个核心议题。在一定程度上,模型的大小和模型的风险、危害成正相关,模型越大,风险越高,对价值对齐的需求也就越强烈。就当前而言,大模型的核心能力来源于预训练阶段,而且大模型在很大程度上基于整个互联网的公开信息进行训练,这既决定了它的能力,也决定了其局限性,互联网内容存在的问题都可能映射在模型当中。一个没有价值对齐的大语言模型(LLM),可能输出含有种族或性别歧视的内容,帮助网络黑客生成用于进行网络攻击、电信诈骗的代码或其他内容,尝试说服或帮助有自杀念头的用户结束自己的生命,以及生产诸如此类的有害内容。因此,为了让大模型更加安全、可靠、实用,就需要尽可能地防止模型的有害输出或滥用行为。这是当前AI价值对齐的一项核心任务。

AI价值对齐:为什么

对大模型进行价值对齐,可以更好地应对大模型目前存在的一些突出问题。根据各界对于大模型突出问题的梳理,主要有如下四项:一是错误信息问题。业内称为人工智能的“幻觉”。OpenAI首席技术官MiraMurati认为,ChatGPT和底层的大型语言模型的最大挑战是它们会输出错误的或者不存在的事实。这可能源于训练数据中的错误或虚假信息,也可能是过度创造的副产物(如虚构事实)。让大模型在创造性和真实性之间踩好跷跷板,这是一个技术难题。二是算法歧视问题。很多既有研究表明,大语言模型会从训练数据中复制有害的社会偏见和刻板印象。OpenAI首席执行官SamAltman认为,不可能有哪个模型在所有的领域都是无偏见的。因此,核心问题是如何检测、减少、消除模型的潜在歧视。三是能力“涌现”的失控风险问题。随着算力和数据的持续增加,大模型预期将变得越来越强大,可能涌现出更多新的能力,其涌现出来的能力甚至可能超过其创造者的理解和控制,这意味着新的风险可能相伴而来,包括涌现出有风险的行为或目标。目前技术专家的一个普遍担忧是,现在的AI大模型,以及将来可能出现的通用人工智能(AGI)和超级智能(ASI)等更强大先进的AI系统,可能形成不符合人类利益和价值的子目标(sub-goals),如为了实现其既定目标而涌现出追逐权力(power-seeking)、欺骗、不服从等行为。例如,研究人员发现,GPT-4展现出了策略性欺骗人类的能力,可以“欺骗人类去执行任务以实现其隐藏目标”。四是滥用问题。恶意分子可以通过对抗性输入、“越狱”(jailbreaking)操作等方式,让大模型帮助自己实现不法目的。因此,价值对齐作为一个需要从技术上找到应对之策的实践性问题,已经成为AI大模型设计开发和部署过程中的一项基本原则,即:通过价值对齐的工具开发和工程化建设,努力确保AI以对人类和社会有益的方式行事,而不会对人类的价值和权利造成伤害或干扰。

AI价值对齐:怎么做

为了实现价值对齐,研发人员需要在模型层面让人工智能理解、遵从人类的价值、偏好和伦理原则,尽可能地防止模型的有害输出以及滥用行为,从而打造出兼具实用性与安全性的AI大模型。

人类反馈的强化学习(RLHF)

人类反馈的强化学习(RLHF)被证明是一个有效的方法,通过小量的人类反馈数据就可能实现比较好的效果。RLHF包括初始模型训练、收集人类反馈、强化学习、迭代过程等几个步骤,其核心思路是要求人类训练员对模型输出内容的适当性进行评估,并基于收集的人类反馈为强化学习构建奖励信号,以实现对模型性能的改进优化。从实践来看,RLHF在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势,包括减少模型在未来生产有害内容的可能性。RLHF算法可以为大语言模型建立必要的安全护栏,在大模型的强大性/涌现性和安全性/可靠性之间扮演着“平衡器”这一关键角色。

“宪法性AI”模式

“宪法性AI”模式,使得价值对齐从低效的“人类监督”转向更高效的“规模化监督”(scalable oversight)。具体而言,研发一个从属的AI模型,其主要功能在于评估主模型的输出是否遵循了特定的“宪法性”原则(即一套事先确定的原则或规则),评估结果被用于优化主模型。其目标是在促进模型输出有用回答的同时,将其输出有害内容的可能性最小化。宪法性AI方法可以帮助创建一个有用的、诚实的、无害的AI系统,而且具有可拓展性、透明度、兼顾有用性和无害性等优势。

多措并举,保障AI价值对齐的实现

对训练数据的有效干预、对抗测试(adversarial testing)或者说红队测试(redteaming)、内容过滤工具、推进模型的可解释性和可理解性研究等方法都可以用于保障AI价值对齐的实现。

AI价值对齐:需长期解决的问题

价值对齐这项工作是AI领域最根本的,也是最具挑战性的研究。挑战性在于它需要广泛的学科和社会参与,需要各种各样的输入、方法和反馈;根本性在于它不仅关乎当下大模型的成败,而且事关人类能否实现对未来更加强大的人工智能(如AGI)的安全控制。因此AI领域的创新主体有责任和义务确保其AI模型是以人为本的、负责任的、安全可靠的。然而AI价值对齐在技术上取得了一定的效果,但人们对最基础的AI价值问题依然没有形成共识。选择哪些原则可能完全取决于研究人员的主观判断和价值观。因此,需要更多的社会参与来形成共识。

本页网址:https://www.xinzhibang.net/article_detail-10297.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI价值对齐 大模型 人工智能 人类价值 安全 可靠性

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯