Core Concepts
本文提出了VidAssist,一個利用大型語言模型和搜索技術進行目標導向規劃的統一框架,在零樣本和少樣本學習設置下取得了出色的性能。
Abstract
本文提出了VidAssist,一個用於教學影片中目標導向規劃的統一框架。VidAssist利用大型語言模型(LLM)作為知識庫和評估工具,通過提出、評估和搜索的方式生成最佳的行動計劃。
具體來說:
- 視覺理解模塊將視覺輸入轉換為文本描述,以便LLM進行處理。
- 提出模塊利用LLM生成多個可能的後續行動。
- 評估模塊設計了四個特定於目標導向規劃的價值函數,包括文本生成得分、文本映射得分、部分計劃評估和少樣本任務圖,用於評估每個提議的行動。
- 搜索模塊採用廣度優先搜索算法,根據評估得分找到最佳的行動計劃。
實驗結果表明,VidAssist在視覺規劃輔助(VPA)和程序規劃(PP)任務上均取得了出色的零樣本和少樣本學習性能,並且在少樣本設置下超越了現有的完全監督方法。
Stats
在COIN數據集上的VPA任務中,VidAssist的零樣本模型在預測3個和4個未來步驟時,分別超過LLM基線12.9%和6.6%的成功率。
在COIN數據集上的PP任務中,VidAssist的零樣本模型在預測4個步驟時,成功率比LLM基線高7.41%。
在COIN數據集上,VidAssist的少樣本模型在VPA任務中超越之前最佳方法7.7%,在PP任務中超越4.81%。
Quotes
"本文提出了VidAssist,一個利用大型語言模型和搜索技術進行目標導向規劃的統一框架。"
"VidAssist利用LLM作為知識庫和評估工具,通過提出、評估和搜索的方式生成最佳的行動計劃。"
"實驗結果表明,VidAssist在零樣本和少樣本學習設置下均取得了出色的性能,並且在少樣本設置下超越了現有的完全監督方法。"