本論文は、SemEval-2024 Task 8の「Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection」に取り組んだ研究を報告している。
主な内容は以下の通り:
データ拡張: 入力テキストを文単位でパラフレーズし、人間生成テキストと機械生成テキストのペアを作成した。これにより、学習データを大幅に増やすことができた。
対照学習: 人間生成テキストと機械生成テキストのペアを用いて、対照学習を行った。これにより、人間生成テキストと機械生成テキストの特徴を効果的に学習できた。
単一モデルの提案: 対照学習と効果的なデータ拡張を組み合わせることで、単一のモデルでも機械生成テキストを高精度に検出できることを示した。これは、従来の手法と比べて大幅に少ない学習パラメータで実現できた。
汎化性能: 訓練データと異なる生成モデルで生成されたテキストに対しても、高い検出精度を達成できることを確認した。
以上の取り組みにより、機械生成テキストの検出において、単一のモデルでも高い性能を発揮できることを示した。今後の課題として、より高度な対照学習手法や、プロンプトベースのデータ拡張手法の検討が挙げられる。
To Another Language
from source content
arxiv.org
Głębsze pytania