核心概念
本文介紹了一個名為 CaptainCook4D 的新型 4D 自我中心視角數據集,該數據集旨在推進對程序性活動中錯誤的自動理解,並為錯誤識別、多步驟定位和程序學習等任務提供基準。
摘要
簡介
這篇研究論文介紹了一個名為 CaptainCook4D 的新型自我中心視角 4D 數據集,旨在促進對程序性活動中錯誤的自動理解。
背景
遵循分步程序是個人日常生活中進行的各種活動的重要組成部分,無論是組裝家具還是準備食譜。然而,程序性活動的複雜性和持續時間會增加出錯的可能性。為了構建能夠在程序性活動中指導用戶的 AI 系統,至關重要的是要了解此類活動中發生的錯誤。
現有數據集的局限性
雖然現有許多數據集旨在增進我們對程序性活動的理解,但這些數據集僅包含個人正確執行分步任務的視頻,而沒有任何錯誤。為了讓 AI 系統有效地識別程序性活動中的錯誤,必須擁有包含正常和錯誤視頻以及相應錯誤註釋(描述)的數據集。
CaptainCook4D 數據集
為了解決這些限制,作者開發了 CaptainCook4D,這是一個自我中心視角的 4D 數據集,旨在增強 AI 系統對程序性活動的理解並提高其識別和預測錯誤的能力。該數據集的顯著特徵包括:
- 真實世界的烹飪活動: 該數據集以參與者在真實廚房環境中執行食譜為特色。它包括兩種不同類型的活動:一種是參與者遵循給定的食譜指南,另一種是他們偏離(有意或無意)並導致錯誤。
- 正常和錯誤的記錄: 該數據集包括參與者準確遵循食譜中描述的程序的正常記錄,以及個人偏離食譜程序並導致錯誤的錯誤記錄。
- 錯誤註釋: 該數據集提供了對參與者所犯錯誤的詳細描述,允許作者編制不同錯誤類別及其簡要說明的全面概述。
數據集貢獻
CaptainCook4D 數據集為理解程序性活動中的錯誤做出了以下具體貢獻:
- 領域: 雖然其他數據集解決了組裝和拆卸過程中的錯誤,但 CaptainCook4D 專注於烹飪活動,烹飪活動本質上很複雜,並且包含多種類型的不同級聯和非級聯錯誤,這些錯誤可能會複合,並且通常會改變環境狀態而無法挽回。
- 環境: 與實驗室環境不同,CaptainCook4D 是在真實的廚房環境中收集的,這為數據集帶來了現實世界的複雜性。
- 多模式功能: 該數據集包括同步的自我中心視角、音頻和深度信息,專為 3D 活動分析、程序學習、錯誤識別等任務而設計。
- 錯誤的多樣性: CaptainCook4D 包含各種錯誤,包括準備錯誤、測量錯誤、技術錯誤、時間錯誤、溫度錯誤、步驟遺漏和順序錯誤。
數據收集
數據收集涉及 8 名參與者在 10 個不同的廚房中進行。參與者配備了基於平板電腦的記錄界面、GoPro 和 HoloLens2 設備。選擇了 24 個烹飪食譜,重點關注準備時間在 30 分鐘或更短的食譜。為每個食譜構建了任務圖,以直觀地表示完成食譜所需的順序步驟。
錯誤誘導策略
為了引導錯誤記錄期間的錯誤,為參與者制定了三種策略:
- 即興: 參與者被要求在執行食譜時誘導錯誤。
- 無序步驟: 參與者被賦予了預先準備好的錯誤腳本,其中包含缺失的步驟和順序錯誤。
- 誘導錯誤: 參與者使用基於網絡的界面為每個選定的食譜記錄創建錯誤腳本。
數據註釋
為了確保高質量的註釋,實施了雙層審查過程。註釋被構造為提供對記錄動作的詳細見解,促進粗粒度和細粒度動作分析。具體來說,數據集提供了以下註釋:
- 粗粒度動作: 標記食譜記錄中每個步驟的開始和結束時間。
- 細粒度動作: 為 20% 的數據提供細粒度動作註釋,以支持動作識別的半/弱監督學習技術。
- 錯誤描述: 對於每個步驟,如果在其執行過程中發生錯誤,則將其步驟註釋與特定錯誤類別和錯誤描述相關聯。
實驗和基準測試
作者在 CaptainCook4D 數據集上進行了廣泛的實驗,以評估其對各種程序理解任務的有效性。具體來說,他們為以下任務提供了基準:
- 錯誤識別: 評估模型識別和分類程序性活動中錯誤的能力。
- 多步驟定位: 評估模型在長視頻序列中定位和分類步驟邊界的能力。
- 程序學習: 評估模型從視頻中學習程序性活動步驟順序的能力。
主要發現
對 CaptainCook4D 數據集的實驗評估突出了當前最先進方法在解決與程序性活動中錯誤理解相關的挑戰方面面臨的挑戰。儘管取得了有希望的結果,但這些方法仍難以以令人滿意的結果充分應對這些挑戰,這表明需要在該領域進行進一步探索。
數據集的局限性
雖然 CaptainCook4D 數據集為理解程序性活動中的錯誤提供了寶貴的資源,但它確實有一些局限性:
- 錯誤覆蓋範圍: 對於每個活動,數據集中捕獲和呈現的錯誤構成了整個組合空間的一個子集。
- 數據收集的地理限制: 由於在真實廚房環境中捕獲 4D 數據帶來的後勤和設備培訓挑戰,數據收集僅限於特定的地理區域。
未來方向
CaptainCook4D 數據集為未來的研究開闢了多個途徑:
- 領域擴展: 該數據集可以通過納入執行硬件相關活動的任務(例如,使用汽車或計算機零件)來涵蓋更廣泛的活動。
- 新方法的開發: 該數據集可用於比較和開發解決任務的新方法,例如使用視覺/文本提示的少樣本錯誤識別、語義角色標記、長視頻理解、程序規劃、減少錯誤等。
總之,CaptainCook4D 數據集是理解程序性活動中錯誤的寶貴資源。它對真實世界數據的關注、對正常和錯誤記錄的包含、全面的註釋以及對各種程序理解任務的基準測試,使其成為推進該領域研究的不可或缺的工具。
統計資料
該數據集包含 384 個記錄(94.5 小時),記錄了人們在真實廚房環境中執行食譜的過程。
提供了 5.3K 個步驟註釋和 10K 個細粒度動作註釋。
這些食譜是從 WikiHow 中挑選的 24 個烹飪食譜,重點關注準備時間在 30 分鐘或更短的食譜。
該數據集分為訓練集、驗證集和測試集,用於基準測試。
引述
“為了讓 AI 系統有效地識別程序性活動中的錯誤,必須擁有包含正常和錯誤視頻以及相應錯誤註釋(描述)的數據集。”
“與實驗室環境不同,我們在真實的廚房環境中收集了我們的數據集,這為數據集帶來了現實世界的複雜性。”
“我們的數據集包括同步的自我中心視角、音頻和深度信息,專為 3D 活動分析、程序學習、錯誤識別等任務而設計。”