Основные понятия
AI 모델 훈련 과정에서 미국 유대인 저자들의 저작물이 과도하게 활용되고 있으며, 이는 이들에게 경제적 피해를 줄 수 있다.
Аннотация
이 연구는 AI 모델 훈련에 사용되는 주요 데이터셋들을 분석하여 미국 유대인 저자들의 저작물이 과도하게 활용되고 있음을 밝혔다.
PubMed Central, Books3, ArXiv, GitHub, FreeLaw 등 5개 주요 데이터셋을 분석했다.
이들 데이터셋에서 유대계 성명을 가진 저자의 저작물이 2배에서 6.5배 가량 과다 활용되고 있는 것으로 나타났다.
이는 AI 모델 훈련 과정에서 유대인 저자들의 지적 재산권이 부당하게 침해되고 있음을 시사한다.
나아가 이러한 지적 재산권 침해는 유대인 저자들의 직업적 기회를 제한하는 등 경제적 피해로 이어질 수 있다.
이 연구 결과는 AI 모델 훈련 데이터 활용에 대한 정책 마련과 새로운 AI 모델 패러다임 모색의 필요성을 강조한다.
Статистика
유대계 성명을 가진 저자의 저작물이 PubMed Central 데이터셋에서 2.02-3.71배 과다 활용되고 있다.
유대계 성명을 가진 저자의 저작물이 Books3 데이터셋에서 2.92-5.36배 과다 활용되고 있다.
유대계 성명을 가진 저자의 저작물이 ArXiv 데이터셋에서 3.07-5.63배 과다 활용되고 있다.
유대계 성명을 가진 저자의 저작물이 GitHub 데이터셋에서 3.53-6.46배 과다 활용되고 있다.
유대계 성명을 가진 저자의 저작물이 FreeLaw 데이터셋에서 2.77-5.08배 과다 활용되고 있다.