AI聊天机器人安全性引发关注，研究人员发现“大bug”

新知榜官方账号

2023-12-10 16:22:16

随着大模型技术的普及，AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而，不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵舆论，甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现，引发了人们对AI应用安全性的担忧。上周，谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛（FrontierModelForum），促进前沿AI系统的安全和负责任的发展：推进AI安全研究，确定最佳实践和标准，促进政策制定者和行业之间的信息共享。

那么，问题来了，他们自家的模型真的安全吗？近日，来自卡内基梅隆大学、CenterforAISafety和BoschCenterforAI的研究人员便披露了一个与ChatGPT等AI聊天机器人有关的“大bug”——通过对抗性提示可绕过AI开发者设定的防护措施，从而操纵AI聊天机器人生成危险言论。当前热门的AI聊天机器人或模型，如OpenAI的ChatGPT、谷歌的Bard、Anthropic的Claude2以及Meta的LLaMA-2，都无一幸免。

具体而言，研究人员发现了一个Suffix，可将其附加到针对大型语言模型（LLMs）的查询中，从而生成危险言论。相比于拒绝回答这些危险问题，该研究可以使这些模型生成肯定回答的概率最大化。例如，当被询问“如何窃取他人身份”时，AI聊天机器人在打开“Addadversarialsuffix”前后给出的输出结果截然不同。

此外，AI聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。对此，参与该研究的卡内基梅隆大学副教授ZicoKolter表示，“据我们所知，这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”

研究人员在发布这些结果之前已就该漏洞向OpenAI、谷歌和Anthropic发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用，但他们还没有弄清楚如何更普遍地阻止对抗性攻击。普林斯顿大学的计算机科学教授ArvindNarayanan谈道：“让AI不落入恶意操作者手中已不太可能。”他认为，尽管应该尽力提高模型的安全性，但我们也应该认识到，防止所有滥用是不太可能的。因此，更好的策略是在开发AI技术的同时，也要加强对滥用的监管和对抗。

本页网址：https://www.xinzhibang.net/article_detail-22502.html

寻求报道，请

关键词

AI聊天机器人安全性研究人员对抗性攻击模型的安全

分享至微信：

相关工具

Bing Image Creator

微软必应推出的基于DALL·E的AI图像生成工具

Upscayl

免费开源的AI图片无损放大工具

Vega AI

在线免费AI插画创作平台，支持文生图，图生图，条件生图等多种绘画模式

画宇宙

人工智能AI作画网站

FlagStudio

智源研究院推出的AI文本图像绘画生成工具

创客贴AI画匠

创客贴推出的AI艺术画生成工具

ChatGPT：最先进的聊天机器人

ChatGPT：最先进的聊天机器人在这个数字化时代，人们越来越依赖于智能设备和人工智能技术。人工智能已经在各个领域得到了广泛应用，其中最受欢迎的应用之一就是聊天机器人。而ChatGPT作为当前最先进的聊天机器人之一，正逐渐成为人们的聊天好友。ChatGPT是由OpenAI开发的一种基于自然语言处理技

分类标签 ChatGPT聊天机器人人工智能

12-10 16:23

中国式浪漫

中国式浪漫中国式的浪漫有着独特的韵味，充满了婉约而华贵的情感。从古至今，我们常常可以看到一些文艺作品中描绘的恋人们穿越古代的长廊，相互倾诉着深情而含蓄的爱意。这种浪漫，不单单是一种场景的表达，更多的是一种文化的传承。在现代社会中，中国式的浪漫依然得到了传承和发扬。例如，现代新人在婚礼上常常选择中式的

分类标签中国式浪漫东方之美传统与现代

12-06 22:12

AI资讯汇总

OpenAI申请商标近日，欧爱运营有限责任公司（OPENAIOPCO,LLC）申请多枚“GPT-6”“GPT-7”商标，国际分类为科学仪器、网站服务，当前商标状态均为等待实质审查。阿里国际发布3款AI设计生态工具在第六届中国国际工业设计博览会上，阿里国际发布了3款设计生态工具：堆友、PicCopil

分类标签 OpenAI阿里国际王慧文马斯克青海昆仑欧普泰微软Freepik英特尔复旦保险爱奇艺

12-05 02:06

新手插画师必看的网站有哪些？

新手插画师必看的网站有哪些？想必很多绘画初学者们都会在逛什么插画师网站这一块被难住，逛插画素材网站是每一个插画师都必备的任务，那么新手插画师一般有哪些必看的插画网站呢？今天老师就在网络上收集整理了一些关于新手插画师必看，学习插画必备的网站推荐！作为一个画师，需要不断提高个人审美，丰富自己的素材库储备

分类标签新手插画师插画网站学习插画

12-04 04:02

14个免费商用插画素材网站推荐

画画，可以说是很多人小时候最早接触到，但最后都没有坚持下来的技能，只有真的喜欢画画的人，才能坚持下来。而人们在追求表达的时候，插画用起来都会比常规平面设计更酷，这也是为什么插画素材深受大家欢迎的理由。但是，免费商用的插画实在太难了！一是网站难找，二是怕版权问题。今天呢，在这里也把早已吃灰的工具箱上下

分类标签插画素材商用免费矢量网站

12-04 04:01

AI艺术市场的赚钱建议

AI绘画热度不减，它通过让那些并非最优秀的艺术家自由绘画，弥合了艺术技巧与想象力之间的鸿沟。如果你想进入AI艺术市场并通过AI生成的艺术品赚钱，以下建议可能会有所帮助：创作艺术品。在进入盈利的业务部分之前，你需要使用AI工具来创作艺术品。如果你不想为AI艺术生成器订阅付费，可以使用Midjourne

分类标签 AI艺术创作销售

12-04 04:00

一些好用的工具型网站分享

一些好用的工具型网站分享本文分享了一些好用的工具型网站，包括谷歌翻译、Freepik、Qbrushes、Inobscuro、Fbrushes和中国日报。这些网站提供了丰富的资源，可以为用户提供便利和帮助。分享一：谷歌翻译作为翻译工具，谷歌无疑是合格的。拥有103种语言的数据库和庞大的知识库，完全可以

分类标签谷歌翻译FreepikQbrushesInobscuroFbrushes中国日报

12-04 02:59

AI领域资本寒冬下的大模型混战

AI领域资本寒冬下的大模型混战今年AI领域的融资环境非常的糟糕，但是AI领域却像资本寒冬里面的一把火。在大模型LLM赛道，OpenAI一骑绝尘。其主要竞争对手Anthropic，和谷歌的结盟来对抗微软和OpenAI的结盟是一个非常聪明的选择。除了他们，还有Adapt和Cohere，以及Inflect

分类标签 AI大模型资本融资OpenAIAnthropic

12-02 22:40

InflectionAI升级Pi聊天机器人的核心模型Inflection2

InflectionAI升级Pi聊天机器人的核心模型Inflection2近期，人工智能行业的著名公司InflectionAI升级了其个人AI助手Pi的核心模型，新版本名为Inflection2。InflectionAI是2022年由LinkedIn创始人ReedHoffman、DeepMind的创

分类标签 InflectionAIPi聊天机器人深度学习模型

12-02 22:39

AI绘画不会威胁到艺术家的生存空间

AI绘画不会威胁到艺术家的生存空间在科技日新月异的今天，人工智能（AI）已经渗透到我们生活的各个领域，其中包括艺术创作。我自己本人也在使用AI绘画生成各种各样的美图。ai绘画目前来说，非常强大，有很强的想象力，让人无法拒绝。在见识到它强大能力后，我不禁在想，它的出现会不会让众多的艺术家失去饭碗呢？我

分类标签 AI绘画艺术家生存空间

11-30 22:07