這篇文章提出了MM-PlanLLM,一個能夠在基於計劃的對話設置中理解多模態輸入並生成多模態輸出的多模態架構。
文章首先定義了問題,包括程序性計劃、用戶-系統互動以及相關的視頻。接下來,作者提出了MM-PlanLLM的架構,包括一個語言模型主幹、一個視覺編碼器以及特定於任務的投射層。
為了訓練MM-PlanLLM,作者設計了一個多階段的多模態訓練方法。第一階段專注於引導視覺投射層,第二階段專注於領域特定的多模態理解,第三階段則集成了對話能力。
實驗結果表明,MM-PlanLLM在文本對話中的性能僅略低於專門的基線,同時在多模態任務中顯著優於基線。此外,分析結果顯示MM-PlanLLM能夠有效地將文本步驟與視頻片段以及用戶圖像對齊。
總的來說,MM-PlanLLM是一個能夠在基於計劃的對話設置中理解和生成多模態輸入輸出的創新模型。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询