AI爬虫肆虐，维基百科妥协 – realnews.my 马来西亚新闻经济科技旅游娱乐体育生活

面对AI爬虫的挑战，维基百科正采取措施积极应对，以维护其知识共享的核心价值和平台的可持续运营。

AI爬虫带来的挑战

服务器压力剧增：自2024年初以来，AI公司为了训练大型语言模型，大量部署爬虫程序抓取维基百科的数据，导致平台多媒体内容下载流量显著增加。维基媒体基金会指出，下载多媒体内容的带宽增长了50%，给服务器带来了巨大的压力。
带宽消耗增加：AI爬虫对维基百科的带宽消耗巨大，尤其是在抓取冷门页面时，会增加核心数据中心的流量成本。数据显示，尽管爬虫产生的页面浏览量仅占总量的35%，但却消耗了65%的核心数据中心流量资源。
影响用户体验：在特定时期，如名人去世或自然灾害发生后，人类用户对维基百科的访问量会激增，同时AI爬虫也会大量访问，导致网页拥挤不堪，页面加载速度变慢，影响用户体验。

维基百科的应对策略

主动提供数据：维基媒体没有起诉AI公司，而是选择将英语、法语维基百科内容托管在Kaggle上，并针对AI模型的口味优化资料，以结构化的JSON格式提供数据，方便AI公司自取。
优化数据格式：维基百科将页面做成JSON格式的结构化内容，将标题、摘要、解释等按照统一格式分好，使AI更容易读懂每一段的内容和数据，从而降低AI公司的成本。
发布AI训练数据集：维基百科与Kaggle合作，发布专门优化用于AI模型训练的数据集，包含研究摘要、简短描述、图像链接等，并采用开放许可，便于AI开发者使用。
技术手段防御：维基媒体的网站可靠性团队一直致力于阻止恶意爬虫，以避免对普通用户造成干扰，保障用户的页面访问速度。

维基百科的无奈与期望

维基百科的应对措施在一定程度上是无奈之举。在法律对AI侵权界限不明的情况下，维基媒体选择主动提供数据，以换取服务器的喘息之机。

维基百科希望通过这种方式，建立一个负责任、可持续的基础设施使用规范，避免重蹈“公地悲剧”。同时，维基百科也期待AI开发者能够尊重其知识共享的理念，合理使用数据，共同维护开放的互联网环境。

其他平台的应对

其他平台也面临着类似的挑战，并尝试了多种应对方法，例如Cloudflare推出的AI Labyrinth，通过使用人工智能生成的内容来减慢爬虫的速度。

Related Articles