本論文は、事前学習モデルの不適切なタスクへの転用を抑制する新しい学習パラダイム「非微調整可能学習」を提案している。
主な内容は以下の通り:
非微調整可能学習の2つの目標は、(1) 元のタスクでの性能を維持すること(完全性)、(2) 制限ドメインでの微調整を訓練から頭から行うよりも困難にすること(非微調整性)である。
非微調整可能学習の最適化問題を、模擬的な微調整プロセスを用いて定式化する。これにより、制限ドメインでの性能低下と元のタスクでの性能維持のトレードオフを最適化できる。
微調整プロセスの多様性に頑健であるよう、様々な微調整手法を模擬的に統合する。また、分類タスクと生成タスクそれぞれに適した損失関数を設計し、最適化の収束を促進する。
広範な実験により、提案手法SOPHONが事前学習モデルの不適切なタスクへの転用を効果的に抑制できることを示す。微調整の際の性能が訓練から頭から行うよりも劣るため、悪用のインセンティブを減らすことができる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiangyi Deng... alle arxiv.org 04-22-2024
https://arxiv.org/pdf/2404.12699.pdfDomande più approfondite