AI爬虫肆虐,维基百科妥协

面对AI爬虫的挑战,维基百科正采取措施积极应对,以维护其知识共享的核心价值和平台的可持续运营。

AI爬虫带来的挑战

  • 服务器压力剧增:自2024年初以来,AI公司为了训练大型语言模型,大量部署爬虫程序抓取维基百科的数据,导致平台多媒体内容下载流量显著增加。维基媒体基金会指出,下载多媒体内容的带宽增长了50%,给服务器带来了巨大的压力。
  • 带宽消耗增加:AI爬虫对维基百科的带宽消耗巨大,尤其是在抓取冷门页面时,会增加核心数据中心的流量成本。数据显示,尽管爬虫产生的页面浏览量仅占总量的35%,但却消耗了65%的核心数据中心流量资源。
  • 影响用户体验:在特定时期,如名人去世或自然灾害发生后,人类用户对维基百科的访问量会激增,同时AI爬虫也会大量访问,导致网页拥挤不堪,页面加载速度变慢,影响用户体验。

维基百科的应对策略

  • 主动提供数据:维基媒体没有起诉AI公司,而是选择将英语、法语维基百科内容托管在Kaggle上,并针对AI模型的口味优化资料,以结构化的JSON格式提供数据,方便AI公司自取。
  • 优化数据格式:维基百科将页面做成JSON格式的结构化内容,将标题、摘要、解释等按照统一格式分好,使AI更容易读懂每一段的内容和数据,从而降低AI公司的成本。
  • 发布AI训练数据集:维基百科与Kaggle合作,发布专门优化用于AI模型训练的数据集,包含研究摘要、简短描述、图像链接等,并采用开放许可,便于AI开发者使用。
  • 技术手段防御:维基媒体的网站可靠性团队一直致力于阻止恶意爬虫,以避免对普通用户造成干扰,保障用户的页面访问速度。

维基百科的无奈与期望

维基百科的应对措施在一定程度上是无奈之举。在法律对AI侵权界限不明的情况下,维基媒体选择主动提供数据,以换取服务器的喘息之机。

维基百科希望通过这种方式,建立一个负责任、可持续的基础设施使用规范,避免重蹈“公地悲剧”。同时,维基百科也期待AI开发者能够尊重其知识共享的理念,合理使用数据,共同维护开放的互联网环境。

其他平台的应对

其他平台也面临着类似的挑战,并尝试了多种应对方法,例如Cloudflare推出的AI Labyrinth,通过使用人工智能生成的内容来减慢爬虫的速度。