核心概念
外部フィードバックなしに、未知の環境においてもマルチモーダル大規模言語モデル(MLLM)が環境理解と意思決定能力を自己学習できる新しいactor-criticパラダイム、SELUを提案する。
要約
SELU: 未知の環境における自己学習型具現化MLLM
本稿は、未知の環境においてマルチモーダル大規模言語モデル (MLLM) が自己学習するための新しいactor-criticパラダイムであるSELUを提案する研究論文の要約です。
本研究は、外部からのフィードバック(人間による注釈や環境からの報酬など)なしに、未知の環境においてもMLLMがタスクを遂行できるよう、環境理解と意思決定能力を自己学習させることを目的としています。
SELUは、強化学習におけるactor-criticパラダイムに触発された、actor MLLMとcritic MLLMの2つのモジュールから構成されます。
Actor MLLM
環境で指示に従ってタスクを実行し、行動の軌跡(trajectory)を収集します。
Critic MLLMからのフィードバックに基づいて、自身の意思決定能力を向上させます。
Critic MLLM
Actor MLLMが収集した行動の軌跡を評価し、タスクの成功/失敗を判定します。
自己学習のために、自己質問(self-asking)と事後再ラベル付け(hindsight relabeling)を用いて、自身の環境理解を向上させます。
自己質問
Critic MLLMは、自身の判断の精度を高めるため、タスクに関連するオブジェクトの状態について自己質問を行います。例えば、「キャビネットを開ける」というタスクが失敗した場合、「キャビネットは開いているか?」と自問自答し、状態を確認します。
事後再ラベル付け
Critic MLLMは、失敗した行動の軌跡を分析し、別のタスクの成功例として再解釈します。例えば、「キャビネットを開ける」というタスクは失敗したものの、「引き出しを開ける」というタスクは成功していると判断した場合、その軌跡を「引き出しを開ける」の成功例として再ラベル付けします。