従来の意味解析タスクの評価では、データの偏りや簡単すぎるテストセットのため、実際の性能を正確に反映していない可能性がある。より体系的なデータ分割と、長文や合成性の課題に焦点を当てたテストセットを導入することで、意味解析モデルの限界を明らかにできる。