Core Concepts
HELPER-Xは、対話型タスク完了、自然言語命令フォロー、質問応答、部屋の整理といった4つのドメインにおいて、少数の事前デモンストレーションを用いて高性能を発揮する。
Abstract
本論文では、HELPER-Xと呼ばれる新しい指示可能な具現化エージェントを提案する。HELPER-Xは、メモリ拡張型言語モデルを活用し、4つのインタラクティブなビジョン・言語ドメインにおいて優れた性能を発揮する。
具体的には以下の2つのバリアントを提案している:
HELPER-XP: ドメイン固有のプロンプトテンプレートと関連するインコンテキストの例を検索するモデル
HELPER-XS: ドメイン非依存のプロンプトテンプレートの下で、共有メモリからインコンテキストの例を検索するモデル
さらに、質問応答機能を拡張し、エージェントが命令の実行中に必要な情報を能動的に収集できるようにした。
4つのベンチマーク(TEACh、ALFRED、DialFRED、Tidy Task)で評価した結果、HELPER-Xは少数の事前デモンストレーションを用いて、ドメイン固有のモデルと同等もしくはそれ以上の性能を発揮することが示された。メモリ拡張によるドメイン間の干渉は見られず、むしろ性能向上につながった。
Stats
TEACh評価セットでのHELPER-XSの成功率は14.5%で、HELPER(13.7%)を上回った。
ALFREDの評価セットでのHELPER-XPの成功率は35.4%で、HELPER(34.4%)を上回った。
DialFREDの評価セットでのHELPER-XSの成功率は19.99%で、HELPER(19.62%)を上回った。
Tidy Taskの評価セットでのHELPER-XSの正しく移動したオブジェクト数は2.2個で、HELPER(2.1個)を上回った。