Khái niệm cốt lõi
LoRA's limited trainable parameters can lead to overfitting, but a unified framework incorporating dropout methods like HiddenKey can mitigate this issue.
Tóm tắt
最近、大規模言語モデル(LLM)が急速に発展し、フルファインチューニングは高いストレージおよび推論コストを伴うため、パラメータ効率の良いファインチューニング(PEFT)手法が注目されています。PEFTは、ほとんどのパラメータを共有しながら競争力のあるパフォーマンスを維持する軽量な代替手法です。一方、Dropoutはトランスフォーマーモデルの性能向上に拡張されており、特定確率で各ニューロンをランダムに無効化します。Zehuiら(2019)は、自己注意メカニズム用に特別に設計された最初の変種であるDropAttentionを提案しています。Chenら(2021)はFeedForwardモジュールで隠れ表現に連続したスパン形式のマスクを適用するHiddenCutを導入しています。最近、Liら(2023)はDrop-before-softmaxスキームであるHiddenKeyを導入しました。
Thống kê
LoRA: Low-rank adaptation on large language models (Hu et al., 2021)
PEFT: Parameter-efficient finetuning methods (Houlsby et al., 2019; Lester et al., 2021; Hu et al., 2021)
Dropout: Random deactivation of neurons during training (Hinton et al., 2012)
DropAttention: Dropout method for self-attention mechanism (Zehui et al., 2019)
HiddenCut: Dropout method for hidden representations in feed-forward module (Chen et al., 2021)
HiddenKey: Drop-before-softmax scheme for key units (Li et al., 2023)
Trích dẫn
"LoRA imposes a low-rank decomposition on weight updates, effectively avoiding the issues of previous methods."
"Dropout randomly deactivates neurons to prevent co-adaptation and has been extended to improve transformer models."
"HiddenKey introduces a drop-before-softmax scheme, enhancing performance in LoRA scenarios."