Conceitos Básicos
低ランクアダプテーション(LoRA)は重みの更新を低ランク射影行列を使って近似するが、これは重みの更新を低ランク空間に制限してしまう。本研究では、層間の低次元射影行列(LP)と高次元射影行列(HP)を階層的に構造化し、HPを全層で共有することで、重みの更新を高ランク化し、層間の情報依存関係をモデル化することを提案する。
Resumo
本研究は、低ランクアダプテーション(LoRA)の限界を克服するため、低ランク相互接続アダプテーション(Lily)を提案している。
Lilyの特徴は以下の通り:
- 各層の低次元射影行列(LP)と、全層で共有される高次元射影行列(HP)から成る階層的な構造を持つ。
- LPはHPとの選択的な結合を行うことで、層間の情報依存関係をモデル化する。
- HPは全層で共有されるため、重みの更新が低ランク空間に制限されることがなく、高ランク更新が可能となる。
これにより、LoRAの限界を克服し、より表現力の高いアダプテーションを実現できる。
実験では、様々なタスクやモデルアーキテクチャにおいて、Lilyが既存手法を大きく上回る性能を示している。特に、コモンセンス推論、自然言語理解、画像生成などの課題で優れた結果を得ている。
また、Lilyの内部メカニズムについても分析を行い、層間の特徴の類似性や、ルーターによる選択的な重み付けなど、Lilyの特性を明らかにしている。
Estatísticas
低ランクアダプテーション(LoRA)は重みの更新を低ランク空間に制限してしまう
Lilyは低次元射影行列(LP)と高次元射影行列(HP)の階層的な構造を持ち、HPを全層で共有することで、高ランクの重みの更新を可能にする
Citações
"LoRAは本質的にはグラディエントの圧縮を行っており、固定のランダム射影行列を使ってグラディエントの射影を行っている。しかし、この設定では重みの更新が低ランク空間に制限されてしまい、アダプテーションの性能を制限している。"
"Lilyは、各LPと全てのHPを相互接続することで、固定の射影行列に支配されることなく、全てのプロジェクタの選択的な組み合わせによってグラディエントの射影を行う。これにより、LoRAの低ランク更新の制限を破ることができる。"