AI大模型的毒丸问题

新知榜官方账号

2023-11-08 06:02:46

AI大模型的本质，就是用大量的数据进行训练，使其能够了解并掌握各种数据，你所看到的文字回答、图画、视频、音乐，其实都是由一个个数据子集根据模型算法所构造的结果。实际上，我们的大脑在回答问题时，也是类似的方式，只不过我们有着更强大的模糊运算能力，甚至可以跳出原有知识的束缚，从一个新的角度对问题进行解析，换言之就是无中生有。

但是，我们也往往会因为一些错误的认知、失真的记忆等因素，而得出一些完全错误或是与真相背道而驰的答案，那么AI呢？他们同样如此，甚至当他们的数据库中出现污染时，他们会“信誓旦旦”地给出完全错误的回答，并且认为这就是正确的。随着AI大模型的数据版权问题愈演愈烈，如今网上正在涌现出不少针对AI大模型设置的陷阱，他们的做法是通过插入特殊数据，破坏AI的数据库，使其产生完全错误的回答。最终迫使开发者回滚相关数据版本，并主动避开产生错误数据的网站，以达到保护自身数据版权不受侵害的目的。

对于这种行为，有个十分贴切的形容——毒丸。毒丸的危害有多大？关注AI大模型领域的朋友，应该都还记得前段时间，国内某科技公司的市值一天内蒸发上百亿，而造成这个后果的原因就是该企业的AI大模型遭到污染，进而让AI生成了一篇有违主流价值观的文章，该文章被一位家长发现后发到了网上，引起了广泛关注。值得注意的是，也有声音称文章并非由AI生成，而是AI在抓取网络资源时无意将其纳入数据库中，并在后续同步到了应用里，导致该文章得到了曝光。

不管是什么原因，一个显而易见的事实都摆在我们面前，AI在分辨事物好坏的能力上，依然有着明显的欠缺。早在AI大模型受到关注的初期，就有声音发出质疑：“如果我们给AI投喂一些有害的数据，是否就可以让AI成为一个坏人？”，答案无疑是肯定的。有人将AI部署到匿名网络论坛4chan中，学习论坛中各个用户之间的交流，在一段时间的训练后，开发者获得了一个“五毒俱全”的AI，它支持纳粹、支持种族歧视、支持种族清洗，并且擅长用各种恶毒的语言辱骂对话者。这个结果甚至让开发者都感到震惊，同时也说明如果对AI的训练数据不加以甄别，就会导致AI的认知及回答都出现严重的错误。

所以，主流AI大模型都会加入了多重纠错和屏蔽措施，避免数据库遭受有害信息的污染。但是，相较于比较容易甄别及防范的文字数据，绘画等数据的“毒丸”则更加隐蔽且高效。此前，有黑客团队就为此专门开发了一套“投毒”工具，这套工具可以在看似正常的画作中加入特殊的特征码，使得AI将其误认为是另一个数据子集的作品，然后通过重复地污染数据池，来达到彻底破坏AI认知的目的。

被污染的AI在面对画图需求时，就会给出完全错误的回答，比如你让AI画一只狗，在短暂等待后，出现在你面前的却是一只猫或者一头牛，或者其他随便什么东西，反正摆在你面前的肯定不是“一条狗”。随着污染数据的增多，AI生成的图画也会越发抽象，到最后变成一堆无意义的线条时，这个AI的数据库基本上就算是玩完了，想要让他恢复正常，只能选择版本回归，让其回到出现问题之前的状态。

如果说毒丸只用在备注了禁止抓取的画作上，那么这只能算是一次版权纠纷，而且多数网友或许也会选择站在画师一边。但是，开发者很快就发现有大量并未标识禁止抓取的作品也内置了毒丸，并且开始持续性地污染AI数据库，想要从浩瀚的训练数据中找出毒丸，难度却极大，可以说直接影响了AI绘画模型的训练速度。

如何防范毒丸的污染，已经成为各个AI大模型需要慎重对待的问题。AI攻防战如何避免AI被污染？对此，开发者想了很多办法，比如加入更严苛的数据审核制度，宁愿降低训练效率也要将疑似有问题的数据剔除出去。但是，这个方法的效果并不算好，随着审核力度加强的还有毒丸的隐蔽性。通过特殊的算法，黑客团队也在不停地迭代更新投毒工具，让毒丸可以被尽可能地伪装成正常数据，进而骗过AI的安全机制，进入到核心数据区。

或许10个毒丸只有1个可以安全过关，但是毒丸的生成速度极快，而摧毁一个数据库所需要的毒丸数量，其实只需几十个，一旦毒丸数量达到数百个，那么AI对某个事物的认知就会完全带歪。此外，AI的学习能力也可以成为对抗毒丸的手段之一，将伪装后的毒丸进行数据标识，然后反复投喂给AI，让AI认识到带有此类特征的数据都是“有毒”的，进而让AI能够举一反三，从浩瀚的数据中分辨出有害数据。

当然，有些隐蔽的非公开投毒工具就无法使用这种方法进行对抗，此时就需要开发者进行定期的安全审查，核实并清除恶意数据，同时根据恶意数据的特征提高模型对恶意数据的应对能力。

不过这些方法都不够高效，需要开发者时刻关注并更新模型，那么是否有别的办法能够更好地解决这个问题呢？当然是有的，只不过需要付出更多的精力和成本，比如AI融合模型。

简单来说，就是将多个AI模型融合成一个模型矩阵，在输出数据前各个模型间先交换一轮数据，对输出内容进行审核，在交叉认证确认数据无误后再进行输出，考虑到一次性多个AI都被污染的概率很低，这种方法的效果和效率也是最高的。但是，多个AI模型的混合十分考虑开发者的技术，会显著增加系统的复杂度和计算成本，对于许多尚未盈利的AI团队或是中小型开发团队而言，有点难以承担。所以这种方法大多被用在大型企业的AI模型矩阵中，为了确保输出数据的正确性（至少看起来不能有明显错误），这点成本可以说不值一提。

可以说，如今的AI模型训练已经不再是简单地比拼数据规模和算法架构，纠错及抗干扰能力也成为一个重要指标。随着AI大模型的应用越发广泛且用户群体日益壮大，如何保证AI在回答问题时不出错已经成为关键，考虑到如今草木皆兵，神经高度敏感的投资市场风气，一个小失误就损失百亿并非玩笑。

本文来自“雷科技”，作者：雷科技，36氪经授权发布。

本页网址：https://www.xinzhibang.net/article_detail-19277.html

寻求报道，请

关键词

分享至微信：

相关工具

Whispr

免费AI对话回应

ChatSonic

WriteSonic出品的ChatGPT竞品

ChatGPT

OpenAI旗下AI对话工具

百度AI伙伴

百度最新上线的AI搜索对话工具

对话写作猫

秘塔写作猫推出的AI对话聊天工具

Forefront

免费版基于GPT-4的AI聊天机器人

AI产品落地全流程小Q聊产品关注

AI产品落地全流程小Q聊产品关注随着人工智能技术的不断发展，越来越多的企业开始关注AI产品的研发和落地。然而，AI产品的落地并不是一件容易的事情，需要经过一系列的规划、设计、研发、测试、上线和推广等环节。首先，AI产品的规划非常重要。在规划阶段，需要明确产品的定位、目标用户、核心功能等。同时，还需要

分类标签 AI产品产品落地全流程

12-08 08:00

AI写真证件照火爆，妙鸭相机成为新宠

近来，一款AI小程序“妙鸭相机”走红网络，不少人在朋友圈里分享自己的AI形象照，用户的热情让“妙鸭相机”的服务器不堪重负，要排队几个小时才能出片。这是一款AI生成照片应用，只需上传21张照片，就可以拥有一个专属的数字分身，从33种风格中挑选心仪的模板，就可以得到一张专业质感的写真。其实，这倒不是新生

分类标签 AI相机妙鸭相机证件照

12-06 08:14

人工智能领域初创公司StabilityAI考虑出售

人工智能领域初创公司StabilityAI考虑出售据知情者消息，开发热门文本生成图片模型StableDiffusion的StabilityAI因投资者对公司财务状况不满，面临出售压力。已和多家公司进行初步磋商，包括加拿大的Cohere和美国的Jasper。StabilityAI的交易不会很快达成，也

分类标签 StabilityAI人工智能出售

12-06 08:11

AIAgent将重塑游戏行业？

AIAgent将重塑游戏行业？据PM.Hwang称，AIAgent可能会彻底改变游戏行业的面貌。未来，AIAgent将成为游戏开发的关键技术，帮助游戏开发者更快更好地开发游戏。在过去的几年中，AIAgent已经被广泛应用于各个领域，例如智能家居、医疗保健等。而现在，AIAgent也开始进入游戏开发领

分类标签 AIAgent游戏重塑

12-02 08:00

海纳AI获数千万元A轮融资，将用于人才招募、AI模型研发、营销体系搭建

海纳AI是一家人才招聘垂直领域的AI产品公司，专注于提供AI面试服务。最近完成了数千万元的A轮融资，资金将用于人才招募、AI模型研发、营销体系搭建。海纳AI的AI面试官（数字人）可以7X24小时自动面试候选人，代替HR进行介绍和提问，候选人只需在手机上录制短视频回答，面试过程省时省力。面试结束后，A

分类标签海纳AI人才招聘AI面试

12-02 06:03

AI公司Pika：半年融资5500万美元，估值约2亿美元

AI公司Pika：半年融资5500万美元，估值约2亿美元今天想聊聊一家AI公司——Pika。作为一家刚创立半年多的初创公司，Pika的辨识性极强，关键词极突出：斯坦福博士创业，公司只有4个人，创业半年融资5500万美元，估值约2亿美元（约合人民币14亿元），投资人几乎囊括了你能认识的大多数知名AI公

分类标签 PikaAI公司融资斯坦福博士视频生成工具短剧

12-02 06:02

StabilityAI陷危机：华尔街投资王施压，强敌环伺，能否自救？

StabilityAI陷危机：华尔街投资王施压，强敌环伺，能否自救？StabilityAI面临着华尔街投资王施压和强敌环伺的危机，该公司正在尝试通过引入会员资格等方式寻求突破。StabilityAI的商业模式正处于危机之中，目前正挣扎着试图找到在市场上维持生存的方法。该公司的文本到图像生成模型Sta

分类标签 StabilityAI人工智能模型

12-01 16:01

进击的AI，正重塑职场生活

进击的AI，正重塑职场生活随着人工智能技术的不断发展，AI正在逐渐渗透到职场生活的方方面面。从智能助手到自动化生产，AI已经成为了现代职场中不可或缺的一部分。在人力资源管理方面，AI可以帮助公司快速筛选简历，预测员工离职风险，还能通过自然语言处理与员工进行智能沟通。在营销方面，AI可以帮助企业更好地

分类标签 AI职场生活

11-30 08:00

AI数据标注员招聘火热，背后是大厂的大模型棋局

AI数据标注员招聘火热，背后是大厂的大模型棋局近期，一大批“AI数据标注员”的岗位突然冒出，工资月薪十分亮眼，都在1万到2万元之间，且发布时间很短，都在1周到1个月之间。据「自象限」观察，“AI数据标注员”招聘不是由这些大厂直接操办，而是通过猎头公司来负责招聘。岗位的名字也是五花八门，有“数据标注”

分类标签 AI数据标注员招聘

11-30 06:03

AI技术赋能电商全链路，哪些工作内容已经可以由AI替代？

01 AI参与电商全链路在不同的企业、科技公司的技术支持下，AI现在几乎参与了电商行业的全链路，区别在于每个环节AI参与的形式不同。从前期的产品设计到产品上架前的摄影、模特、文案、美工，无论是导购还是智能客服，或者是内容种草、私域运营……你能想到大多数环节都已经诞生了相应的AI产品，帮助电商人更高效

分类标签 AI技术电商全链路工作内容替代降本增效中小商家

11-30 06:02

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway