近年來,生成式 AI 的興起帶動了對網路數據的大量需求,進而導致 AI 爬蟲的普及。這些爬蟲被用於收集訓練 AI 模型的數據,但這種行為引發了版權、隱私和道德方面的擔憂,對內容創作者的生計構成潛在威脅。
研究發現,大型網站已迅速採取行動,利用 robots.txt 等技術手段來限制 AI 爬蟲的訪問。然而,個別內容創作者,特別是藝術家,在應對 AI 爬蟲方面面臨著更大的挑戰。
問卷調查結果顯示,藝術家普遍擔心 AI 生成藝術對其職業生涯的影響,並已採取行動來保護自己的作品。儘管他們渴望使用 robots.txt 等工具來阻止 AI 爬蟲,但缺乏對這些工具的認識、技術能力和實際操作的自主權,導致他們難以有效利用這些技術手段。
超過 60% 的受訪藝術家從未聽說過 robots.txt。
即使聽說過 robots.txt,許多藝術家也不具備使用該工具的技術知識。
許多藝術家使用第三方託管服務來建立網站,而這些服務通常不允許修改 robots.txt 文件,導致藝術家無法控制 AI 爬蟲對其網站的訪問權限。
研究發現,大多數 AI 數據爬蟲會遵守 robots.txt 的規則,但部分 AI 助理爬蟲則不然。此外,主動阻擋技術(如 Cloudflare 提供的服務)雖然能提供更強的保護,但仍存在覆蓋範圍有限等問題。
總體而言,該研究強調了開發更完善機制的必要性,這些機制應考慮到不同使用案例的多樣性,讓更多內容創作者能夠輕鬆使用,並更清晰地傳達使用這些機制的影響和限制。
翻譯成其他語言
從原文內容
arxiv.org
深入探究