新知榜官方账号
2023-07-04 00:08:52
随着GPT-4、StableDiffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?
然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(modelcollapse),造成不可逆的缺陷。也就是,随着时间推移,模型就会忘记真实基础数据部分。即使在几乎理想的长期学习状态下,这个情况也无法避免。因此研究人员呼吁,如果想要继续保持大规模数据带来的模型优越性,就必须认真对待人类自己写出来的文本。
但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。训练数据,都是「垃圾」毫无疑问,现在的大语言模型已经进化出了相当强大的能力,比如GPT-4可以在某些场景下生成与人类别无二致的文本。但这背后的一个重要原因是,它们的训练数据大部分来源于过去几十年人类在互联网上的交流。如果未来的语言模型仍然依赖于从网络上爬取数据的话,就不可避免地要在训练集中引入自己生成的文本。对此,研究人员预测,等GPT发展到第n代的时候,模型将会出现严重的崩溃问题。
那么,在这种不可避免会抓取到LLM生成内容的情况下,为模型的训练准备由人类生产的真实数据,就变得尤为重要了。
模型崩溃是指在给模型投喂了太多来自AI的数据之后,带来的能够影响多代的退化。也就是,新一代模型的训练数据会被上一代模型的生成数据所污染,从而对现实世界的感知产生错误的理解。更进一步,这种崩溃还会引发比如基于性别、种族或其他敏感属性的歧视问题,尤其是如果生成AI随着时间的推移学会在其响应中只生成某个种族,而「忘记」其他种族的存在。而且,除了大语言模型,模型崩溃还会出现在变分自编码器(VAE)、高斯混合模型上。
具体来说,模型崩溃可以分为两种情况:
与此同时,研究人员也总结出了造成模型崩溃的两个主要原因:
其中,在更多的时候,我们会得到一种级联效应,即单个不准确的组合会导致整体误差的增加。
现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。使用综合生成数据训练的LLM的性能明显降低,就像IliaShumailov所称会让模型患上「痴呆症」。而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。
总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。
相关工具
相关文章
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28