Conceitos Básicos
ニューラルネットワークに基づく強化学習ポリシーをGradient Boosting Machines(GBMs)、Explainable Boosting Machines(EBMs)、およびSymbolic Regressionに蒸留して、解釈可能な「ガラス箱」モデルに変換する新しいアプローチを紹介します。
Resumo
強化学習(RL)の最近の進歩は、ロボットの動作能力で顕著な成果をもたらしています。
ニューラルネットワークに基づくRLポリシーの複雑さと「ブラックボックス」性質は、解釈性と広範な受容性を妨げています。
Gradient Boosting Machines(GBMs)、Explainable Boosting Machines(EBMs)、およびSymbolic Regressionを使用して、ニューラルRLポリシーを解釈可能な形式に蒸留する新しいアプローチが紹介されています。
Dataset Aggregation(DAgger)アルゴリズムを使用して、フィードバック制御ポリシーの効率的な蒸留が提案されています。
205時間の模擬経験でニューラルエキスパートポリシーを訓練し、提案された方法で各動作ごとにわずか10分間の模擬対話で解釈可能なポリシーを抽出します。
INTRODUCTION
RLと解釈性に関する重要性が増加しています。
ロボット制御用GBMやEBMからNNポリシーや値関数を抽出する手法が提案されています。
METHODOLOGY
RL専門家ポリシーのトレーニングと解釈可能なロコモーションポリシーの抽出手法が説明されています。
RESULTS
GBM、EBM、およびSymbolic Policiesのパフォーマンス評価結果が示されています。
各ガイトで抽出した政策のパフォーマンスや解釈性が詳細に分析されています。
Estatísticas
205時間の模擬経験でニューラルエキスパートポリシーを訓練し、各動作ごとにわずか10分間の模擬対話で解釈可能なポリシーを抽出します。