大規模言語モデルの強力な性能を活用しつつ、パラメータ数を大幅に削減することで、より効率的かつ低コストなパラフレーズ生成モデルを開発した。
ParaFusionは、既存のデータセットを拡張して高品質なデータを生成し、語彙的および統語的多様性を大幅に向上させながら、意味的類似性を維持している。
潜在的拡散モデルを用いることで、高品質かつ多様なパラフレーズを生成できる。入力の一部のみを利用することで、外部特徴を必要とせずにセマンティクスを強化できる。
パラフレーズは意味的に等価または類似したテキストを生成する多様なタスクを包含する。一般的なパラフレーズコーパスは特定のタスクに偏っており、その特性を考慮しないと信頼できない結果につながる。