Core Concepts
웹 콘텐츠 창작자와 발행자들이 자신의 지적 재산권을 보호하기 위해 생성형 AI 모델 학습에서 자신의 콘텐츠 사용을 제한할 수 있는 기술적 방안들이 필요하다.
Abstract
이 연구는 생성형 AI 기술의 발전으로 인해 대두된 웹 콘텐츠 창작자와 발행자들의 권리 보호 문제를 다룬다.
EU와 미국의 지적 재산권 및 데이터 보호 법규를 검토하여, 웹 크롤링과 텍스트/데이터 마이닝 활동에 대한 법적 근거를 살펴보았다.
이어서 기존의 웹 크롤링 제어 프로토콜인 Robots Exclusion Protocol(REP)과 관련 표준들을 소개하고, 최근 생성형 AI 모델 학습을 위한 웹 콘텐츠 이용 제어 방안들을 평가하였다.
이러한 ad hoc 표준들은 robots.txt 파일, 사용자 에이전트 이름, 메타태그 등 다양한 기술적 접근법을 제시하고 있다. 하지만 아직 업계 전반의 광범위한 채택이 이루어지지 않아, 웹 발행자들이 자신의 콘텐츠 이용을 효과적으로 제어하기 어려운 상황이다.
Stats
웹 사이트의 56.0%가 유효한 robots.txt 파일을 제공하고 있다.
Google-Extended 사용자 에이전트는 약 65만 3,800개의 robots.txt 파일에서 발견되었다.
노ai, 노이미지ai, 노ml 메타태그는 약 82개의 웹 페이지에서만 사용되고 있다.
TDM Reservation Protocol(TDM-Rep)을 적용한 웹 사이트는 약 45개에 불과하다.
Quotes
"웹 발행자들은 AI 애플리케이션이 확장됨에 따라 다양한 용도에 대한 선택과 제어를 관리하는 복잡성에 직면할 것이다."
"이러한 기술 마이크로 표준 모두를 구현하거나 최소한 가장 중요한 것들을 고려해야 하는 과제에 직면하게 된다."