複数の劣化したベースラインポリシーを組み合わせることで、それぞれの長所を活かした優れたポリシーを学習する。
LLVMアセンブリのコードサイズを最適化するために、大規模言語モデルを活用したコンパイラ最適化の新しいパラダイムを紹介します。