本研究では、人工的に生成されたテキストデータの品質検査と出自追跡を支援するツールINSPECTORを開発した。データ拡張手法を適用すると、元のテキストの意味が変化したり、理解不能な文章が生成される可能性がある。このような低品質なデータを手動で検査するのは非常に時間がかかる。
INSPECTORは以下の2つの機能を提供する:
出自追跡: テキストの変換履歴や言語的特徴に基づいてテキストをグループ化し、ユーザーが効率的に関連するテキストを検査できるようにする。
支援的ラベル付け: 各テキストの品質メトリクス(文法性、流暢性、ラベルの適合性)や大規模言語モデルの予測を表示し、ユーザーの判断を支援する。
ユーザー評価実験の結果、INSPECTORを使うことで、感情分析タスクでは3倍、ヘイトスピーチ検出タスクでは4倍、正しいラベルのテキストを特定できることが示された。ユーザーは変換履歴に基づくグループ化を最も有用だと感じており、個別のテキストの品質メトリクスや言語モデルの予測も役立つと評価した。一方で、言語的特徴に基づくグループ化は有用ではないと感じられた。
本研究の結果は、人工的に生成されたテキストデータの品質検査には、出自追跡と支援的ラベル付けの両方が必要であることを示唆している。INSPECTORは、このような人工データの検査を効率化し、モデルの堅牢性を向上させることができる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies