核心概念
物体の文脈的な関係性と抽象的な時間論理表現を活用して、主タスクと類似した探索要件を持つ有用な補助タスクを自動生成する。これにより、単一のタスクカリキュラムから得られる経験を最大限に活用できる。
要約
本研究では、強化学習エージェントが物体指向の環境で効率的に学習できるよう、以下の取り組みを行っている。
物体の文脈的な関係性を捉えるため、大規模言語モデルを使って物体の記述的な特徴量を生成し、クラスタリングを行う。
与えられたタスクの時間論理式表現を抽象化し、物体の特徴量を用いて関連する補助タスクを自動生成する。
主タスクに対してεグリーディな行動方策を用いつつ、生成した補助タスクの方策も同時に学習する。これにより、主タスクの探索経験を最大限に活用できる。
実験の結果、提案手法で生成した補助タスクは、主タスクの探索経験を最大限に活用でき、単一のタスクカリキュラムを用いた場合に比べて優れた性能を示すことが分かった。一方、ランダムに生成した補助タスクでは、このような効果は得られなかった。
統計
与えられたタスクの時間論理式は、♢(C ∧♢(P ∧♢(I ∧♢(F ∧♢(H ∧♢Y )))))である。
提案手法では20個の補助タスクを生成し、同時に学習を行った。
引用
"物体指向の環境では、物体間の意味的・文脈的な関係性を活用することで、効率的な探索と学習が可能になる。"
"単一のタスクカリキュラムから得られる経験を最大限に活用するには、主タスクと類似した探索要件を持つ補助タスクを自動生成することが重要である。"