AI生成的数据:对模型的影响与人类数据的重要性

新知榜官方账号

2023-07-04 00:08:52

引言

随着GPT-4、StableDiffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?

然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(modelcollapse),造成不可逆的缺陷。也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。

但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。训练数据,都是「垃圾」毫无疑问,现在的大语言模型已经进化出了相当强大的能力,比如GPT-4可以在某些场景下生成与人类别无二致的文本。但这背后的一个重要原因是,它们的训练数据大部分来源于过去几十年人类在互联网上的交流。如果未来的语言模型仍然依赖于从网络上爬取数据的话,就不可避免地要在训练集中引入自己生成的文本。对此,研究人员预测,等GPT发展到第n代的时候,模型将会出现严重的崩溃问题。

模型崩溃

那么,在这种不可避免会抓取到LLM生成内容的情况下,为模型的训练准备由人类生产的真实数据,就变得尤为重要了。

模型崩溃是指在给模型投喂了太多来自AI的数据之后,带来的能够影响多代的退化。也就是,新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误的理解。更进一步,这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题,尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族,而「忘记」其他种族的存在。而且,除了大语言模型,模型崩溃还会出现在变分自编码器(VAE)、高斯混合模型上。

具体来说,模型崩溃可以分为两种情况:

  1. 早期模型崩溃(earlymodelcollapse),模型开始丢失有关分布尾部的信息;
  2. 后期模型崩溃(latemodelcollapse),模型与原始分布的不同模式纠缠在一起,并收敛到一个与原始分布几乎没有相似之处的分布,往往方差也会非常小。

与此同时,研究人员也总结出了造成模型崩溃的两个主要原因:

  1. 统计近似误差(Statisticalapproximationerror);
  2. 函数近似误差(Functionalapproximationerror)。

其中,在更多的时候,我们会得到一种级联效应,即单个不准确的组合会导致整体误差的增加。

人类数据的重要性

现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。使用综合生成数据训练的LLM的性能明显降低,就像IliaShumailov所称会让模型患上「痴呆症」。而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。

总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。

本页网址:https://www.xinzhibang.net/article_detail-5103.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI生成 数据 模型崩溃 人类数据 原始数据

分享至微信: 微信扫码阅读

相关工具

相关文章