本研究は、コヒーレンス評価のための新しいデータ拡張フレームワークCoUDAを提案している。
コヒーレンス評価は、ディスコースの構造と組織を評価することを目的とする重要な課題である。しかし、人手アノテーションデータが不足しているため、データ拡張が広く用いられている。従来の拡張手法は発見的なルールに依存しており、コヒーレンスの重要な側面を十分に捉えきれていない。
本研究では、言語理論に基づいて、コヒーレンスの2つの側面であるグローバルとローカルの両側面を統一的にモデル化するデータ拡張フレームワークCoUDAを提案している。
グローバルな拡張では、文章の順序をシャッフルすることで、グローバルなコヒーレンスを損なうサンプルを生成する。ローカルな拡張では、生成モデルを用いて、コンテキストに整合的でない文を生成することで、ローカルなコヒーレンスを損なうサンプルを生成する。この際、2つの制御メカニズムを導入し、生成サンプルの難易度を調整している。
最後に、推論時には、グローバルとローカルの両側面のスコアを統合して、全体的なコヒーレンス評価を行う。
実験の結果、提案手法は、GPT-4ベースの手法を含む従来手法を大きく上回る性能を示した。特に、ポイントワイズのコヒーレンス評価タスクにおいて顕著な改善が見られた。また、ペアワイズランキングタスクでも優れた結果を得ている。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문