従来の単語置換ベースのデータ拡張手法は、文の意味を変化させる可能性があるが、BERT-cosine類似度フィルタリングを用いることで、この問題を軽減できる。また、大規模言語モデル(LLM)を用いたデータ拡張は、従来手法よりも高い性能を示す。