核心概念
本文介紹了FoodieQA,這是一個手工標注的多模態數據集,旨在通過多圖像、單圖像和文本問答任務,評估模型對中國區域性食文化的細緻理解。
摘要
本文介紹了FoodieQA數據集,該數據集旨在評估模型對中國區域性食文化的細緻理解。
數據集收集過程包括以下五個步驟:
- 選擇中國14種主要菜系類型
- 收集當地人上傳的私人食物圖像
- 對個別菜品進行元信息註釋
- 基於圖像設計多圖像視覺問答題
- 基於元信息設計單圖像視覺問答題和文本問答題
數據集統計信息如下:
- 多圖像視覺問答題403個
- 單圖像視覺問答題256個
- 文本問答題705個
- 人類在中文問題上的準確率為91.69%(多圖像)、74.41%(單圖像)和56.2%(文本)
實驗結果顯示,即使是最先進的開放權重模型在多圖像視覺問答任務上也落後於人類41%,表明理解食物及其文化內涵仍是一個具有挑戰性且未被充分探索的方向。此外,模型在不同語言下的表現也存在差異,雙語模型在中文上表現更好,而多語言模型在英文上表現更佳。
統計資料
中國北京的羊肉火鍋以傳統銅鍋烹飪而聞名。
廣東省有一種以粥為底的火鍋。
四川和重慶的火鍋以香辣的湯底聞名。
引述
"食物是文化遺產的一個豐富多樣的維度,對個人和社會群體都至關重要。"
"理解食物及其文化含義仍然是一個具有挑戰性和未被充分探索的方向。"