المفاهيم الأساسية
ChatGPT生成コンテンツの検出可能性を研究し、新たな検出手法を提案する。
الملخص
この論文は、ChatGPT生成コンテンツの検出可能性に焦点を当て、新しい検出手法を提案しています。GPABench2データセットを使用し、異なる学問領域やタスクにおける分類器のパフォーマンスを評価しています。手作業で作成された言語的および意味的特徴量を用いた基準アプローチから始め、RoBERTaとLSTMを組み合わせたCheckGPTフレームワークが高い精度を達成しています。
Benchmarking GPABench2 Dataset:
- GPABench2データセットは、人間が書いた抽象とChatGPTが生成した抽象の比較サンプルで構成されています。
- 現在存在するLLM(Large Language Models)検出器は、特にGPT-polishedテキストの識別において不十分なパフォーマンスを示しています。
CheckGPT Framework:
- CheckGPTフレームワークは、RoBERTaとLSTMを組み合わせた分類器であり、異なる学問領域やタスクにおいて高い精度を実現しています。
- モデル訓練中のトレーニングロスはPrompt 1では急速に収束し、Task 2とTask 3ではより難易度が高くなっています。
الإحصائيات
ChatGPT生成コンテンツの識別精度は99.28%から99.65%です。
اقتباسات
"We present GPABench2, a cross-disciplinary corpus consisting of human-written, GPT-written, GPT-completed, and GPT-polished research paper abstracts."
"CheckGPT framework consists of two stages: representation and classification."