本論文は、意味解析タスクの評価方法に課題があると指摘し、より適切な評価方法を提案している。
まず、従来のランダムなデータ分割では、訓練データとテストデータの間に単語の重複が多く、モデルの実力を正確に反映していないことを示した。そこで、文章長に基づいて系統的にデータを分割する新しい手法を提案した。
次に、従来のテストセットが短い文章で構成されており、モデルの性能を過大評価している可能性を指摘した。そこで、2つの新しいチャレンジテストセットを作成した。1つは長文テストセットで、もう1つは合成性テストセットである。前者は長文の文章を手動で注釈し、後者は文法構造の組み合わせを自動生成することで、モデルの限界を明らかにしようとしている。
実験の結果、提案した評価方法では、従来の評価に比べてモデルの性能が大幅に低下することが示された。特に長文テストセットでは、モデルの性能が大きく低下した。一方、合成性テストセットでは、モデルの性能が比較的高かったが、一部の複雑な構造では性能が低下した。
以上より、意味解析タスクはまだ完全に解決されていないことが明らかになった。提案手法は、モデルの限界を正確に評価し、今後の研究開発に役立つと考えられる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies