核心概念
大規模言語モデルの汎用性を小規模タスク固有モデルに効率的に移転することで、ドメイン間の一般化を実現する。
摘要
本研究では、ユニバーサルドメイン一般化を実現するための新しい手法「UNIGEN」を提案している。UNIGEN は、ドメイン固有のプロンプトではなく、ドメイン非依存のプロンプトを使用してデータセットを生成する。これにより、生成されたデータセットはドメイン間の一般化が可能となる。さらに、擬似ラベリングと記憶バンクの除雑音化を組み合わせることで、生成されたデータの品質を向上させている。
実験の結果、UNIGEN は単一のモデルで様々なドメインに対して一般化できることが示された。また、大規模言語モデルと比較して桁違いに少ないパラメータ数で、ドメイン間の一般化性能を維持できることが確認された。これにより、大規模言語モデルを直接使用するよりも効率的な推論が可能となる。
统计
生成されたデータの擬似ラベルは、事前学習済み言語モデルの出力確率を使用して算出される。
生成されたデータの品質を保つため、擬似ラベルの確率が一定のしきい値を下回る場合は、そのデータを除外する。
記憶バンクには、ノイズに頑健な損失関数で学習した重みが高い高品質なサンプルのみを格納する。
引用
"大規模言語モデルの汎用性を小規模タスク固有モデルに効率的に移転することで、ドメイン間の一般化を実現する。"
"UNIGEN は、ドメイン固有のプロンプトではなく、ドメイン非依存のプロンプトを使用してデータセットを生成する。これにより、生成されたデータセットはドメイン間の一般化が可能となる。"
"擬似ラベリングと記憶バンクの除雑音化を組み合わせることで、生成されたデータの品質を向上させている。"