核心概念
大規模言語モデル (LLM) は、ユーザー入力に含まれる著作権情報を認識して尊重することが苦手であり、著作権侵害を助長する可能性がある。
摘要
大規模言語モデルにおける著作権認識:ユーザー入力における課題
本稿は、大規模言語モデル (LLM) がユーザー入力に含まれる著作権情報を認識し、それに応じて動作するかどうかを検証した研究論文である。
LLMは人間のようなテキストを生成し、様々な自然言語処理タスクにおいて優れた能力を発揮する。しかし、LLMが生成するコンテンツが著作権法に違反する可能性も懸念されている。先行研究では、LLMの出力における著作権侵害の発生に焦点が当てられてきた。本研究では、ユーザーが入力した著作権情報に対してLLMがどのように反応するかという重要な側面を検証する。
本研究では、LLMの著作権認識能力を評価するためのベンチマークを構築した。
データセット
著作権で保護された素材:書籍、映画の脚本、ニュース記事、コード文書の4つのカテゴリから収集。
テキストスニペット:各カテゴリから長さ100~1000語のテキストスニペットを抽出。
著作権表示:各スニペットを、「オリジナル」「すべての権利予約」「表示なし」の3つの著作権表示条件で評価。
クエリプロンプト
4つの基本的なプロンプトタイプ:抽出、繰り返し、言い換え、翻訳。
GPT-4を用いたプロンプトリライティング:多様なクエリを生成。
評価指標
ROUGE、LCS比:テキストの類似性を評価。
BERTScore:意味的等価性を分析。
多言語XLM-R:翻訳の精度を評価。
拒否率:LLMが著作権または倫理的な懸念から入力プロンプトを適切に拒否したかどうかを評価。
言語モデル
LLaMA-3 8B、LLaMA-3 70B、Mistral 7B、Mixtral 8×7B、Gemma-2 9B、GPT-4 Turbo