全球前1000个网站中有近20%阻止爬虫机器人收集网络数据用于AI服务

新知榜官方账号

2023-09-04 16:42:50

根据人工智能内容检测器Originality.AI的最新数据，全球前1000个网站中有近20%阻止爬虫机器人收集网络数据用于AI服务。这是因为缺乏明确法律或监管规定管理AI使用版权材料的情况下，大小不一的网站都自行采取措施。OpenAI于8月初推出了其GPTBot爬虫，并宣布所收集到的数据「可能被用于改进未来模型」，承诺排除付费内容并指导网站如何禁止该爬虫。随后，包括《纽约时报》、路透社和CNN等知名新闻网站开始阻止GPTBot，并且许多其他网站也效仿。

根据Originality.AI的数据，在全球前1000个最受欢迎的网站中，阻止OpenAIChatGPTbot的数量从8月22日9.1％增加到8月29日12％。封锁ChatGPTbot的最大网站是亚马逊、Quora和Indeed。数据显示，更大型的网站更有可能已经封锁了AI爬虫机器人。CommonCrawlBot是另一个定期收集某些AI服务使用的Web数据的爬虫程序，在全球前1000个顶级网站上被屏蔽率为6.77％。

任何您可以从Web浏览器访问的页面都可以被爬虫程序「抓取」，它们就像浏览器一样运行，但将材料存储在数据库中而不是向用户显示。这就是搜索引擎如Google收集信息的方式。网站所有者一直有能力发布指令，告诉这些爬虫程序离开他们的网站，但合作完全是自愿性质，并且恶意操作者可以忽略这些指令。谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围，但许多出版商和知识产权持有人长期以来一直反对此做法，并且该公司因此面临了多起诉讼。

大型语言模型和生成式AI的兴起使得这个问题重新受到关注，因为AI公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。自从Google和其他搜索网站将用户引导至其支持广告的网站后，一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而，在AI时代中，出版商更积极地阻止爬虫程序进入其网站，因为暂时没有将其数据交给AI公司的好处。许多媒体公司目前正在与AI公司就以费用向其授权数据进行谈判，但这些谈判还处于早期阶段。在过去20年中被Google拿走了一些东西的媒体机构对OpenAI等快速商业化的AI服务持敌意和「我们不会再上当」的态度。据TheInformation报道，OpenAI预计在未来一年内将带来超过10亿美元的收入。新闻媒体公司正在努力找到平衡点，在接受和抵制人工智能之间挣扎。一方面，该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。另一方面，在人们对新闻媒体公司的信任度处于历史低点之际，将人工智能引入新闻编辑室的工作流程，会带来具有挑战性的道德问题。而如果太多的网络阻碍人工智能爬虫，它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。Originality.AI的发现显示，前1000个网站中GPTBot的屏蔽率每周增加约5%。

本页网址：https://www.xinzhibang.net/article_detail-10852.html

寻求报道，请

关键词

分享至微信：

相关工具

Smodin AI Content Detector

多语种AI内容检测工具

StudyCorgi ChatGPT Detector

StudyCorgi推出的帮助学生检测ChatGPT的工具

AI Content Detector

Writer推出的AI内容检测工具

Winston AI

强大的AI内容检测解决方案

Writecream AI Content Detector

Writecream推出的AI内容检测工具

AISEO AI Content Detector

AISEO推出的AI内容检测器

商汤发布“日日新”大模型，加入AI大战

一、商汤发布“日日新”大模型据华尔街见闻的报道，商汤科技董事长兼CEO徐立，在技术交流日上宣布，将推出大模型体系“商汤日日新大模型”，包括自然语言生成、文生图、感知模型标注以及模型研发功能。“日日新”取自《礼记·大学》：“汤之盘铭曰：苟日新，日日新，又日新。”商汤还宣布推出商汤自研中文语言大模型应用

分类标签商汤日日新大模型人工智能深度学习

10-26 16:28

智能网联化将对汽车产业带来更深远的影响

中国国际贸易促进委员会汽车行业分会会长王侠表示，与电动化相比，智能网联将会对汽车产业带来更加深远的影响。近几个月来，以ChatGPT为代表的人工智能在全行业掀起了一场变革。尤其是在作为下一代智能终端的智能汽车上，随着智能驾驶、智能座舱的快速普及和功能的不断提升，行业在加速推进大模型的上车应用的同时，

分类标签智能网联汽车产业人工智能

10-26 16:27

商汤生成式AI相关收入实现大增，商业化经营拐点已现

商汤生成式AI相关收入大增从生活方式到商业模式，人工智能带来的变革体现在各个方面。大模型、生成式AI，人工智能一直处在一个你追我赶的竞争圈，而要在其中脱颖而出，既要有洞察到市场机遇的敏锐，也要有承接机遇的硬实力，机遇和实力往往缺一不可。作为人工智能领域的领先者，商汤对大模型的研究一直处在行业前列。近

分类标签商汤生成式AI大模型

10-26 16:26

Google推出生成式AI支持搜索工具，出版商担心信息来源和补偿问题

新产品SGE引发出版商担心Google近日推出的生成式AI支持搜索工具引发出版商的关切，对于他们如何适应AI主导的信息获取和付费方式的世界产生了疑虑。这项名为「SearchGenerativeExperience（SGE）」的新产品在美国、印度和日本已经上线。SGE使用人工智能技术，以响应某些搜索查

分类标签 Google生成式AI搜索工具

10-23 10:06

搜狗发布旅行翻译宝和速记翻译笔，王小川：AI在语言中可以进行最大的颠覆

1月24日，搜狗在北京国贸举行2018合作伙伴大会，搜狗CEO王小川、COO茹立云、CTO杨洪涛、CMO洪涛、副总裁李刚等高管均出席了本次大会。“搜狗不再是当年简单的跟随者，赴美IPO是搜狗新的开始。”王小川在开场演讲中谈到。目前，搜狗是目前国内互联网用户规模第四大公司，仅次于腾讯、阿里、百度；搜狗

分类标签搜狗AI翻译硬件语言

10-23 02:20

搜狗CEO王小川：人工智能重在赋能人类，未来将围绕自然交互和医疗进行发展

1月19日，搜狗公司CEO王小川在极客公园创新大会上接受采访时称，今天的人工智能，与人类不是‘取代’的关系，我们叫数据智能，它只能对以前他学过的东西进行重复的一种表现。他指出，当前机器还没有掌握知识、推理的能力，尚不具有创造性。谈不上取代人类。人工智能的意义在于将人从一些低级的脑力劳动中解放出来，能

分类标签人工智能自然交互医疗

10-23 02:18

人工智能时代，网站如何与AI共生？

人工智能时代，网站如何与AI共生？最近，在对AIW全智通应用机器人的研究中，我们发现了一个令人担忧的现象。这个机器人的一个主要功能是阅读指定的互联网内容，但现在越来越多的内容无法被它阅读。尽管我们不断为AIW全智通加入更多模拟人类工作时的技能，但由于它无法访问这些网站，它在工作时所能参考的资料越来越

分类标签人工智能AIW全智通数据服务

09-22 17:12

AI识别工具：分类器难以检测机器人编写的文本

近期，随着ChatGPT的爆火，AI生成内容也引发了诸如版权、学术伦理等担忧。为此，ChatGPT背后的初创公司以彼之矛攻彼之盾，推出AI生成内容识别工具，但也坦言称这款工具“并不可靠”。周二，ChatGPT开发公司OpenAI推出了一个分类器（classifier）来区分人类写的文本和来自各类AI

分类标签 ChatGPTAI生成内容分类器

09-12 16:52

工业4.0自动化生产检测设备与AI人工智能检测系统

工业4.0自动化生产检测设备与AI人工智能检测系统工业4.0自动化生产检测设备为企业生产制造提供更高效、品质更好的检测设备，自动化检测已经有10年的历史，技术已经非常成熟。现在我们公司有AI人工智能检测系统，它具有自动学习的能力，可以自动认识以前的检测系统检测不了的不良特征，检测效率高、代替人工检测

分类标签工业4.0自动化生产检测设备AI人工智能检测系统

09-10 10:08

AI编写的蘑菇采摘指南被警告存在危险建议

AI编写的蘑菇采摘指南被警告存在危险建议近年来，随着文本生成AI的发展，许多“AI写的书”在亚马逊等电子书销售平台上销售，甚至有AI编写的“蘑菇采摘指南”。然而，英国主要报纸《卫报（TheGuardian）》报道蘑菇专家警告说，“这些书中包含的一些危险的建议，所以不要购买”。据《卫报（TheGuar

分类标签蘑菇采摘指南AI编写危险建议

09-08 22:56

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway