新知榜官方账号
2023-08-23 01:32:32
AI公司抓取海量互联网数据,已经导致法律问题的出现,起诉AI公司的人正在变得越来越多。如今,OpenAI目前正面临大量的官司,原告称该公司训练数据集中的大多数书籍来自盗版来源和非授权网站。一旦被判侵权,公司有可能将面临巨额罚款或重构算法的局面。这也导致,如今AI公司越来越不愿意分享AI训练数据的详细信息。
但一些公开的盗版语料库已经被盯上。近日,有人发现一个叫Book3的数据集,包含近20万本书籍,囊括村上春树、史蒂芬·金等畅销书作家的著作,这个数据集被用在了训练AI模型上,最近遭到反盗版组织的反复攻击。版权问题这把利刃,正悬在AI公司们的头上,有摇摇欲坠之势。
Books3,AI公司的秘密一直以来,对于AI模型的训练数据并不完全透明。今年,多名美国作家针对OpenAI提起了集体诉讼,指控其使用盗版书籍来训练其语言模型,侵犯版权并违反了多项法律。这些作家主张的证据很简单,因为些他们从未同意OpenAI使用他们的作品,然而ChatGPT却能提供他们作品的准确摘要,这让他们认为这些信息肯定是从某个地方获取的。
尽管目前没有直接证据表明OpenAI使用盗版网站来培训ChatGPT,但一些AI模型此前已经明确在盗版书籍上进行了训练,包括使用「Books3」数据集的AI模型。EleutherAI的Pythia研究论文中提到,Pythia是使用Pile数据集进行训练的,而Pile数据集包含多个英语文本集,其中之一就是名为「Books3」的数据集。
从OpenAI到StabilityAI,越来越多的人打AI公司的官司,AI训练数据的版权问题备受关注。作家协会、新闻机构、政府等各方也在积极应对这一问题,希望在AI的发展与尊重人类创作权益之间达到平衡。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16