本研究は、生成型人工知能モデルによる「生成型パロット」の問題に取り組んでいる。生成型パロットとは、モデルが訓練データを非常に忠実に模倣してしまうことで、著作権侵害につながる可能性のある現象である。
研究では、マスクオートエンコーダ(MAE)を過剰適合させることで、訓練データに忠実な出力と新規のサンプルを効率的に区別する手法を提案している。具体的には以下の通り:
実験の結果、マスク割合(p_mask)の調整によって、検出率と新規サンプルの誤検出率のバランスを取ることができることが示された。適切な設定により、生成型パロットを効率的に検出しつつ、新規のクリエイティブな出力を許容することが可能となる。
本手法は、著作権保護と倫理的な人工知能開発に貢献するものと期待される。今後は、他のデータモダリティへの適用や、より高度な閾値設定手法の検討などが課題として考えられる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Saeid Asgari... alle arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19050.pdfDomande più approfondite