早期終了は言語モデルの推論を高速化する有効な手法であるが、従来の手法では訓練と推論の間に不整合が存在していた。本研究では、強化学習を用いて訓練と推論の一貫性を保ちつつ、インスタンスの難易度に応じて正確性と高速性のバランスを取る手法を提案する。