Core Concepts
LLMで生成されたテキストと人間が書いたテキストを言語学的特徴を用いて効果的に区別できる。
Abstract
本論文では、SemEval-2024 Task 8「Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection」への提出に向けて開発したシステムについて説明する。
提案手法の概要は以下の通り:
RoBERTa-baseの[CLS]トークンの埋め込みと、語彙の多様性などの言語学的特徴を組み合わせる
訓練データの選択に工夫を凝らす
実験の結果、提案手法は以下のことを示した:
言語学的特徴のみでも、事前学習言語モデルを使う手法と同等の性能が得られる
訓練データの選択を工夫することで、埋め込みを使う手法の性能を大幅に向上できる
提案手法は、未知のモデルや分野にも一般化できる高い性能を発揮する
本研究の主な貢献は以下の2点:
言語学的特徴の多様性がLLM生成テキストの検出に及ぼす影響を調査した
訓練データの選択方法が性能に与える影響を示した
Stats
人間が書いたテキストは、LLMで生成されたテキストと比べて、難しい単語の数、語彙数、文数が多い。
人間が書いたテキストは、LLMで生成されたテキストと比べて、読みやすさが高い。