全球前1000个网站中有近20%阻止爬虫机器人收集网络数据用于AI服务

新知榜官方账号

2023-09-04 16:42:50

根据人工智能内容检测器Originality.AI的最新数据,全球前1000个网站中有近20%阻止爬虫机器人收集网络数据用于AI服务。这是因为缺乏明确法律或监管规定管理AI使用版权材料的情况下,大小不一的网站都自行采取措施。OpenAI于8月初推出了其GPTBot爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和CNN等知名新闻网站开始阻止GPTBot,并且许多其他网站也效仿。

根据Originality.AI的数据,在全球前1000个最受欢迎的网站中,阻止OpenAIChatGPTbot的数量从8月22日9.1%增加到8月29日12%。封锁ChatGPTbot的最大网站是亚马逊、Quora和Indeed。数据显示,更大型的网站更有可能已经封锁了AI爬虫机器人。CommonCrawlBot是另一个定期收集某些AI服务使用的Web数据的爬虫程序,在全球前1000个顶级网站上被屏蔽率为6.77%。

任何您可以从Web浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。这就是搜索引擎如Google收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。

大型语言模型和生成式AI的兴起使得这个问题重新受到关注,因为AI公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。自从Google和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在AI时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给AI公司的好处。许多媒体公司目前正在与AI公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。在过去20年中被Google拿走了一些东西的媒体机构对OpenAI等快速商业化的AI服务持敌意和「我们不会再上当」的态度。据TheInformation报道,OpenAI预计在未来一年内将带来超过10亿美元的收入。新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。Originality.AI的发现显示,前1000个网站中GPTBot的屏蔽率每周增加约5%。

本页网址:https://www.xinzhibang.net/article_detail-10852.html

寻求报道,请 点击这里 微信扫码咨询

关键词

人工智能 爬虫机器人 版权材料

分享至微信: 微信扫码阅读

相关工具

相关文章