Core Concepts
事前学習済みの大規模言語モデルを効果的に転移学習するためのFeaturized Low-rank Mixtures(FLix)は、多様なタスクと言語を含むデータ混合物に対して顕著な性能向上をもたらします。
Abstract
FLixは、異なるデータセットの特徴ごとにパラメータを割り当て、入力をそれぞれの特徴固有の適応に導く。一定のパラメータ共有がFLixに悪影響を与えることが示されましたが、それでも計算コストが同等である場合、共有された特徴を持つFLixは依然として計算マッチングされたLoRAよりも優れています。
FLixはゼロショット一般化で非常に効果的であり、新しい言語やタスク-言語組み合わせに対して顕著な改善をもたらします。
Stats
LoRA: 低ランク適応方法(Hu et al., 2022)
XTREME-UPデータセット内のさまざまな言語およびタスクから評価されたF1スコア
FLANデータセット:指示チューニング用部分集合(Chung et al., 2022)
Quotes
"FLix associates each unique dataset feature with its own low-rank weight update parameters."
"Feature Dropout brings consistent gains to FLix."
"FLix is related to prior works on sub-network composition."