AI训练数据的版权问题:从OpenAI到StabilityAI,为什么越来越多的人打AI公司的官司?

新知榜官方账号

2023-08-23 01:32:32

AI训练数据的版权问题

AI公司抓取海量互联网数据,已经导致法律问题的出现,起诉AI公司的人正在变得越来越多。如今,OpenAI目前正面临大量的官司,原告称该公司训练数据集中的大多数书籍来自盗版来源和非授权网站。一旦被判侵权,公司有可能将面临巨额罚款或重构算法的局面。这也导致,如今AI公司越来越不愿意分享AI训练数据的详细信息。

但一些公开的盗版语料库已经被盯上。近日,有人发现一个叫Book3的数据集,包含近20万本书籍,囊括村上春树、史蒂芬·金等畅销书作家的著作,这个数据集被用在了训练AI模型上,最近遭到反盗版组织的反复攻击。版权问题这把利刃,正悬在AI公司们的头上,有摇摇欲坠之势。

Books3,AI公司的秘密一直以来,对于AI模型的训练数据并不完全透明。今年,多名美国作家针对OpenAI提起了集体诉讼,指控其使用盗版书籍来训练其语言模型,侵犯版权并违反了多项法律。这些作家主张的证据很简单,因为些他们从未同意OpenAI使用他们的作品,然而ChatGPT却能提供他们作品的准确摘要,这让他们认为这些信息肯定是从某个地方获取的。

尽管目前没有直接证据表明OpenAI使用盗版网站来培训ChatGPT,但一些AI模型此前已经明确在盗版书籍上进行了训练,包括使用「Books3」数据集的AI模型。EleutherAI的Pythia研究论文中提到,Pythia是使用Pile数据集进行训练的,而Pile数据集包含多个英语文本集,其中之一就是名为「Books3」的数据集。

从OpenAI到StabilityAI,越来越多的人打AI公司的官司,AI训练数据的版权问题备受关注。作家协会、新闻机构、政府等各方也在积极应对这一问题,希望在AI的发展与尊重人类创作权益之间达到平衡。

本页网址:https://www.xinzhibang.net/article_detail-10249.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯