本論文は、基盤モデルの内在的な偏りに着目し、これを軽減する一般化ロジット調整法を提案している。
まず、基盤モデルの学習に用いられる大規模Webデータは高度に偏っており、その結果として基盤モデルは頻出クラスに偏った判断境界を学習してしまう。このため、微調整や ensemblingを行っても、依然として偏りが残存してしまう。
提案手法の一般化ロジット調整法は、2つのステップから成る。第1ステップでは、基盤モデルの出力から事前学習時のクラスラベル分布を推定する。第2ステップでは、推定した分布を用いて、基盤モデルと微調整モデルを適切に組み合わせる。
提案手法は、理論的に最適な組み合わせであることが示されており、多様なタスクにおいて大幅な精度向上を実現している。特に、少量データ学習や長尾分布の問題設定で顕著な効果を発揮する。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문