المفاهيم الأساسية
本共有タスクは、複数のジェネレータ、ドメイン、言語にわたる機械生成テキストの検出に焦点を当てている。3つのサブタスクを通じて、人間が書いたテキストと機械生成テキストを正確に区別し、特定のLLMの出力を特定し、人間から機械への移行点を特定することを目指している。
الملخص
本共有タスクは、機械生成テキストの検出に関する3つのサブタスクから構成されている。
サブタスクA:人間vs機械の分類
- 入力テキストが人間によって書かれたものか、機械によって生成されたものかを判別する2値分類タスク
- モノリンガルトラックとマルチリンガルトラックの2つのトラックがある
サブタスクB:多様なジェネレータの検出
- 入力テキストが人間によって書かれたものか、特定のLLM(GPT-3、GPT-3.5、GPT-4、Cohere、DALL-E、BLOOMz)によって生成されたものかを特定する多クラス分類タスク
サブタスクC:移行点の検出
- 人間が書いた部分から機械が生成した部分への移行点を正確に特定するタスク
- テキストの最初は人間が書いており、途中から機械が生成を続ける
このタスクには多数の参加者があり、サブタスクAモノリンガル(126チーム)、サブタスクAマルチリンガル(59チーム)、サブタスクB(70チーム)、サブタスクC(30チーム)と合計54のチームが参加した。
الإحصائيات
人間が書いたテキストの正確な検出は非常に重要である。
機械生成テキストの検出は、ジャーナリズム、教育、学術分野などでの悪用を防ぐ上で重要な課題となっている。
人間と機械の共同執筆のテキストでは、機械生成部分を正確に特定することが難しい。
اقتباسات
"機械生成テキストの急増は、ジャーナリズム、教育、学術分野などでの悪用に対する懸念を引き起こしている。"
"機械生成テキストと人間が書いたテキストを正確に区別する能力は、情報の完全性を維持し、正確な情報の伝達を確保するために不可欠である。"
"人間と機械の共同執筆のテキストでは、機械生成部分を正確に特定することが難しい。"