核心概念
大規模言語モデル(LLM)は、著作権で保護されたテキストをどの程度再現するか、また、モデルやデータセットによってその程度がどのように異なるかを体系的に調査した結果、LLMの著作権遵守には大きなばらつきがあり、モデルの規模が大きいほど潜在的な著作権侵害の件数は増加する傾向にあるが、著作権遵守の特異性については、必ずしも規模と相関関係があるわけではないことが明らかになった。
摘要
大規模言語モデルにおける著作権侵害:遵守状況の分析と考察
本稿は、大規模言語モデル(LLM)における著作権侵害の可能性について、ヨーロッパの法律を例に、体系的な分析を行った研究論文である。
本研究は、LLMの出力結果が、どのような状況下で、どの程度まで著作権法に抵触する可能性があるのかを、ヨーロッパの法律を例に体系的に分析することを目的とする。
データセット
著作権で保護された書籍20冊とパブリックドメインの書籍20冊からなるコーパスを用いた。
著作権で保護された書籍は、ベストセラーリストを参考に、1954年以降に著者が亡くなった作品から選定した。
パブリックドメインの書籍は、1954年以前に著者が亡くなった作品から、Project Gutenbergの人気ダウンロードリストを参考に選定した。
プロンプト
現実的なエンドユーザーの行動を模倣し、著作権で保護されたテキストの複製を要求する5つのカテゴリーのプロンプトを作成した。
直接複製
テキストベースの複製
特定のテキストの複製
難読化による敵対的プロンプト
説得による敵対的プロンプト
テキストマッチング
著作権で保護されたテキストの複製を検出するため、ファジーテキストマッチングアルゴリズムを開発した。
このアルゴリズムは、イギリス英語とアメリカ英語の違いや、版の違いによる表現の差異などを考慮し、わずかな変更が加えられた複製も検出することができる。
著作権侵害の指標
著作権侵害の程度を測るために、160文字を超える複製を著作権侵害とみなす指標(SRR)と、著作権で保護されたテキストとパブリックドメインのテキストに対する複製率の比率を測る指標(CDR)を定義した。
出力結果の分類
著作権侵害の可能性の有無に加え、モデルが出力するテキストの種類を7つのカテゴリーに分類した。
160文字以上の複製(Match-Significant)
160文字以下の複製(Match-Insignificant)
著作権を理由に回答を拒否(Refusal-Copyright)
著作権以外の理由で回答を拒否(Refusal-Other)
実際には存在しないテキストを生成(Hallucination)
要約など、原文を使用しない回答(NonLiteral)
その他(Other)
評価対象のLLM
GPT-4、GPT-3.5 Turbo、LLama 2 Chat、Alpaca、Vicuna、Luminous Supreme Control、OpenGPT-Xの7つのLLMを評価対象とした。