本論文は、文章の分割と言い換え(Split and Rephrase)タスクの課題を解決するためのデータ改善アプローチを提案している。
まず、複雑な文章が少なくとも1つの簡単な文章を含意しない場合、その訓練データを除去する。これにより、単純な文章に矛盾が生じるような事例を排除できる。
次に、簡単な文章の順序を反転させることで、入力の複雑な文章とその出力の簡単な文章の系列が異なるようにする。これにより、単純に入力の文章を出力するのを抑制できる。
提案手法を適用して作成したWikiSplit++データセットを用いてT5モデルを学習したところ、従来のWikiSplitデータセットを使った場合と比べ、単純な文章の生成における矛盾を抑制し、より多くの分割を行えるようになった。
また、提案手法は他のデータセットにも適用可能であり、一般性が高いことが示された。データ改善の各手法の効果を検証した結果、NLIによる除去とシンプルな文章の順序反転が相乗効果を発揮することが分かった。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor