本研究は、大規模言語モデル(LLM)の一般常識推論を物理的なドメインに基づけるための重要な課題に取り組む。具体的には、少数の人間による実演から、タスクの潜在的な抽象的モード構造を学習し、それを利用して頑健な制御ポリシーを構築する。
主な手順は以下の通り:
人間による実演にランダムな変動を加えることで、成功と失敗の両方のトラジェクトリを生成する。これにより、実演では見られない状態空間の領域をカバーし、モードの境界を学習できる。
LLMを使って、実演の抽象的な言語的記述を得る。これにより、タスクに関連する状態表現や、モード間の遷移可能性を定義できる。
変動を加えた実演トラジェクトリと、LLMから得られた言語的情報を組み合わせて、モード分類器を学習する。この分類器は、連続的な状態を離散的なモードに写像する。
モード分類器を使って、モード固有の制御ポリシーを学習する。これにより、言語計画に基づいて、物理的な実装を行うことができる。
この手法により、少数の実演から、タスクの潜在的な構造を抽出し、頑健な制御ポリシーを構築できることが示された。特に、外乱に対する回復力が向上することが確認された。また、学習したモード分類器は、タスク失敗の原因を説明するのにも役立つ。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor