本研究では、複雑な手順を実行する際に、テキストによる手順説明と視覚情報を組み合わせることの重要性に着目している。具体的には以下の3つの主要な機能を持つマルチモーダルな言語モデル「MM-PlanLLM」を提案している:
手順に沿った会話型の応答生成:
ユーザーの要求に応じて、手順に沿った適切な応答を生成する。
手順に関連する動画セグメントの検索:
ユーザーの質問に応じて、手順に関連する動画セグメントを検索・提示する。
ユーザーの進捗状況に応じた次の手順の生成:
ユーザーが提供した画像から、現在の進捗状況を把握し、次の適切な手順を生成する。
モデルの訓練には、マルチタスク・マルチステージのアプローチを採用し、段階的にマルチモーダルな理解能力を身につけさせている。実験の結果、提案モデルは、テキストのみの対話においても高い性能を維持しつつ、マルチモーダルな入出力にも優れた性能を示すことが確認された。また、テキストの手順と動画セグメント、ユーザー提供画像と手順の整合性も高いことが示された。
To Another Language
from source content
arxiv.org
Deeper Inquiries