Centrala begrepp
人間のように、テキストによる対話と複雑な意思決定を同時に行うことができる事前学習済みマルチモーダルモデルVLA4CDを構築する方法とその有効性を示します。
Sammanfattning
チャットと意思決定を同時に行う事前学習済みマルチモーダルモデルVLA4CD:論文要約
本稿では、自動運転を例に、大規模言語モデル(LLM)の対話機能と視覚言語行動(VLA)モデルの意思決定機能を併せ持つ、事前学習済みマルチモーダルモデルVLA4CDの構築方法を提案しています。
従来のVLAモデルは、テキストによる指示に従って行動するタスクに用いられてきましたが、人間のようにリアルタイムな対話の中で状況に応じた意思決定を行うことはできませんでした。本研究では、この課題を解決し、テキストによる対話と複雑な意思決定を同時に行うことができる事前学習済みマルチモーダルモデルの開発を目指しています。
LLMのバックボーンモデルとしてLlama-7bを採用し、LoRAを用いてファインチューニングを行いました。
テキスト入力はLlama-7bの埋め込み層でエンコードし、画像入力はVLMやVLAで標準的に用いられる2D畳み込みネットワークでエンコードしました。
連続値である行動データは、離散化してトークン化する従来の手法ではなく、多層パーセプトロン(MLP)を用いて直接処理することで、より複雑な意思決定タスクにも対応できるようにしました。
学習には、運転中の車両の軌跡と、運転状況に関する質問応答ペアを含むデータセットを使用しました。
損失関数には、テキスト生成、行動予測、画像再構成の3つの要素を含めました。
テキスト生成には、ラベルスムージングを用いたクロスエントロピー損失を採用しました。
行動予測には、予測値と正解値の平均二乗誤差(MSE)を用いました。
画像再構成には、出力埋め込みから画像パッチを再構成する2D転置畳み込み層を用い、元の画像パッチとのピクセル単位のユークリッド距離を最小化するように学習しました。