Core Concepts
モデルとデータサイズの拡大が模倣学習パフォーマンスに大きな影響を与えることを示す。
Abstract
模倣学習(IL)は機械学習で広く使用されている方法であり、モデルとデータサイズの拡大が重要であることが示唆されている。
ILの限界や課題について複数の作品が指摘しており、特にモデルとデータサイズの役割が深く探究されていないことが明らかになっている。
本論文では、AtariゲームやNetHackなどのシングルエージェントゲームでILエージェントをトレーニングし、スケーリング法則を明らかにした。
パラメータ数やサンプル数はFLOP予算に対してべき乗則的にスケールし、性能向上をもたらすことが示された。
Introduction
ILはAIの印象的な偉業を支えてきたが、多くの作品でその限界が指摘されてきた。
本論文では、AtariゲームやNetHackなどでILエージェントをトレーニングし、スケーリング法則を調査した。
Scaling up imitation learning
モデルサイズとサンプル数はFLOP予算に対してべき乗則的にスケールすることが示された。
損失改善はパフォーマンス向上につながり、ロス最適化平均リターンもべき乗則的関係を持つ。
Forecasting compute-optimal BC agents
ネットハック用のコンピュート最適BCエージェントのトレーニング要件を予測し、以前のSOTAよりも1.5倍以上性能向上させた。
Stats
FLOPバジェット内で最適クロスエントロピー損失を見つける方法は何ですか?
ログパラメーターとログFLOPs間で観測された傾向は何ですか?
Quotes
"模倣学習損失と平均リターンはFLOPsに対して明確なべき乗則傾向を示す。"
"改善した損失は環境内でより良いパフォーマンスへ直結する。"