本論文では、プロンプティングやプレフィックス微調整といった文脈ベースの微調整手法の理論的な分析を行っている。
まず、離散トークン空間よりも連続的な埋め込み空間の方が表現力が高いことを示した。しかし、プレフィックス微調整には構造的な限界があり、入力コンテンツに対する注意配分を変更できず、注意ブロックの出力にのみバイアスをかけることができるにすぎない。一方、完全な微調整は注意パターンを任意に変更でき、注意ブロックの出力を自由に変更できるため、プレフィックス微調整よりも表現力が高い。
次に、プレフィックス微調整が高い実験的性能を示す理由を分析した。プレフィックスは事前学習時のスキルを引き出すことができ、事前学習タスクに似た新しいタスクを学習できる。しかし、完全に新しいタスクを学習することは難しい。これは単にパラメータ数が少ないためではなく、注意パターンを変更できないという構造的な限界によるものである。
さらに、プレフィックスの影響が深層の層にも及ぶことを示し、プレフィックス微調整がパラメータ効率的でない可能性を指摘した。
以上より、プロンプティングやプレフィックス微調整は事前学習モデルの潜在的なスキルを引き出すことはできるが、完全に新しいタスクを学習することは難しいことが明らかになった。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Aleksandar P... a las arxiv.org 04-10-2024
https://arxiv.org/pdf/2310.19698.pdfConsultas más profundas