スタイル表現を活用することで、少量の機械生成テキストサンプルから、人間が書いたテキストと機械生成テキストを効率的に区別できる。さらに、特定の言語モデルによって生成されたテキストを予測することも可能。
対照学習と効果的なデータ拡張を組み合わせることで、単一のモデルでも機械生成テキストを高精度に検出できることを示した。
RoBERTaの各層に含まれる言語的情報を活用することで、ドメインや生成器の違いを超えて機械生成テキストを効果的に検出できる。
本共有タスクは、複数のジェネレータ、ドメイン、言語にわたる機械生成テキストの検出に焦点を当てている。3つのサブタスクを通じて、人間が書いたテキストと機械生成テキストを正確に区別し、特定のLLMの出力を特定し、人間から機械への移行点を特定することを目指している。