言語モデルにおける大規模な忘却の理解 - 暗黙的推論を通して

Core Concepts

言語モデルの微調整(命令チューニングや人間のフィードバックからの強化学習など)は、微調整データ分布外のタスクに対する能力を犠牲にする可能性がある。我々は、言語モデルが暗黙的にプロンプトのタスクを推論しており、微調整がこの推論を微調整データ分布のタスクに偏らせることを仮説する。この仮説に基づき、コンジュゲートプロンプティングを提案し、合成設定でプリトレーニング時の能力を回復できることを示す。

Abstract

本研究は、言語モデルの微調整が引き起こす大規模な忘却の効果を理解することを目的としている。まず、線形回帰の合成設定を用いて実験を行った。プリトレーニング時には広範なタスク分布(Dcont)と特定のタスク集合(Ddisc)の両方を学習するが、Ddisc上の性能を向上させるための微調整は、Dcont上の性能を犠牲にする。この現象を理解するため、モデルが暗黙的にタスクを推論していると仮定した。微調整によってこの推論が微調整データ分布のタスクに偏るため、プリトレーニング時の能力が抑制されると考えられる。そこで、プロンプトをDdisc分布からより離れるように変換する「コンジュゲートプロンプティング」を提案した。これにより、微調整後のモデルでもプリトレーニング時の能力を一部回復できることを示した。次に、この理解を実際の大規模言語モデルに適用した。命令チューニングではin-context学習能力が抑制されるが、プロンプトを非英語に変換することで回復できることを示した。また、コード微調整後の自然言語推論能力の低下や、安全性微調整後の有害コンテンツ生成能力の抑制についても同様の現象が観察された。以上より、微調整による大規模な忘却は、モデルの暗黙的なタスク推論が変化したことが主な原因であり、コンジュゲートプロンプティングによってある程度回復できることが示された。

Stats

微調整後のモデルは、微調整データ分布に近いタスクでは性能が向上するが、遠いタスクでは性能が大幅に低下する。微調整後のモデルの性能低下は、プロンプトがDdisc分布からの尤度が低いほど大きい。コンジュゲートプロンプティングにより、微調整後のモデルでもプリトレーニング時の能力の一部を回復できる。

Quotes

"言語モデルは暗黙的にプロンプトのタスクを推論しており、微調整がこの推論を微調整データ分布のタスクに偏らせる可能性がある。" "コンジュゲートプロンプティングを用いることで、微調整後のモデルでもプリトレーニング時の能力の一部を回復できる。"

Key Insights Distilled From

Understanding Catastrophic Forgetting in Language Models via Implicit Inference

by Suhas Kotha,... at arxiv.org 04-16-2024

https://arxiv.org/pdf/2309.10105.pdf

Understanding Catastrophic Forgetting in Language Models via Implicit Inference

Deeper Inquiries

言語モデルの暗黙的なタスク推論メカニズムをより深く理解するためには、モデルの内部構造を詳細に分析する必要がある。

言語モデルの暗黙的なタスク推論メカニズムを理解するためには、まず、モデルが特定のタスクを解決する際にどのように情報を処理しているかを詳細に調査する必要があります。これには、モデルが入力データをどのように処理し、内部表現をどのように変換してタスクを遂行するかを理解することが含まれます。さらに、微調整や事前学習の過程で、モデルが異なるタスクをどのように区別し、推論するかを調査することも重要です。モデルが特定のタスクを遂行する際にどのような特徴やパターンを活用しているかを明らかにすることで、暗黙的なタスク推論メカニズムをより深く理解することが可能となります。

微調整の影響を最小限に抑えつつ、目的のタスク能力を向上させる新しい微調整手法の開発が期待される

新しい微調整手法の開発において、微調整の影響を最小限に抑えつつ目的のタスク能力を向上させるためには、いくつかのアプローチが考えられます。まず、微調整データの適切な選択や増やし方によって、モデルが広範囲のタスクに適応できるようにすることが重要です。さらに、コンジュゲートプロンプティングのような新しい戦略を導入し、微調整中にモデルが特定のタスクに偏らず、事前学習時の能力を維持できるようにすることも有効です。また、微調整の際に重要なタスクと補助的なタスクを適切にバランスさせることで、目的のタスク能力を向上させつつ、他の能力を損なうリスクを軽減することが可能です。

コンジュゲートプロンプティングの応用範囲を広げるため、より多様な言語や変換手法を検討する必要がある

コンジュゲートプロンプティングの応用範囲を広げるためには、さまざまな言語や変換手法を検討することが重要です。例えば、言語モデルが複数の言語で同様のタスクを遂行できるようにするために、多言語データセットを活用したり、言語間の変換を行うことが考えられます。さらに、LeetspeakやPig Latinなどの言語変換や、異なる文化やコンテキストにおけるタスクの変換も検討することで、コンジュゲートプロンプティングの適用範囲を拡大することができます。異なる言語や変換手法を組み合わせることで、モデルの汎用性や柔軟性を向上させ、さまざまな状況で効果的に適用できるようにすることが重要です。

言語モデルにおける大規模な忘却の理解 - 暗黙的推論を通して

Understanding Catastrophic Forgetting in Language Models via Implicit Inference

言語モデルの暗黙的なタスク推論メカニズムをより深く理解するためには、モデルの内部構造を詳細に分析する必要がある。

微調整の影響を最小限に抑えつつ、目的のタスク能力を向上させる新しい微調整手法の開発が期待される

コンジュゲートプロンプティングの応用範囲を広げるため、より多様な言語や変換手法を検討する必要がある

Get PDF Summary in Seconds