核心概念
本文介紹了一個名為 UGotMe 的具身系統,旨在解決多方對話場景中情感互動的環境噪音和即時性問題,並提出了一種新的視覺語言情感識別模型 (VL2E),該模型在 MELD 資料集上優於所有基準模型,並成功部署於實體機器人 Ameca 上,展現出良好的情感回應能力和使用者體驗。
摘要
UGotMe 系統概述
研究背景
隨著人形機器人在醫療保健和服務環境中的應用日益廣泛,如何讓機器人理解人類情緒並做出適當的情感回應成為人機互動領域的重要研究方向。然而,現有的多模態情感識別模型在實際應用中面臨著環境噪音和即時性方面的挑戰。
系統設計目標
為了解決上述挑戰,本文提出了一個名為 UGotMe 的具身系統,旨在實現以下目標:
系統架構
UGotMe 系統主要由三個模組組成:
- 機器人多模態感知模組:負責收集機器人視覺、聽覺和對話文本等多模態數據。
- 邊緣視覺語言情感建模模組:利用去噪策略過濾無關資訊,並基於視覺和文本輸入識別人類情緒狀態。
- 機器人表情執行模組:將識別出的情緒狀態映射到預先定義的機器人表情集中,並由機器人執行相應的表情。
VL2E 模型
模型設計理念
為了更好地識別多方對話場景中人類的情感,本文提出了一種新的視覺語言情感識別模型 (VL2E)。該模型專為與 UGotMe 系統的去噪策略相容而設計,並具有以下特點:
- 利用人臉提取和特定人物中性表情標準化技術,有效提取情感特徵。
- 結合對話上下文資訊,提高情感識別的準確性。
- 採用多模態融合機制,整合視覺和文本資訊。
模型性能評估
在 MELD 資料集上的實驗結果表明,VL2E 模型在情感識別方面優於現有的其他方法,證明了其有效性。
真實世界部署
部署平台
本文將 UGotMe 系統部署在名為 Ameca 的人形機器人上,並設計了多方對話場景,讓機器人與多名人類參與者進行互動。
評估指標
實驗結果
真實世界部署的實驗結果顯示,UGotMe 系統能夠有效地識別人類情緒並做出適當的情感回應,同時保持良好的使用者體驗。
總結與展望
主要貢獻
- 提出了 UGotMe 系統,解決了多方對話場景中情感互動的環境噪音和即時性問題。
- 提出了一種新的視覺語言情感識別模型 (VL2E),並在 MELD 資料集上取得了優異的性能。
- 將 UGotMe 系統成功部署於實體機器人 Ameca 上,驗證了其在真實世界中的實用性。
未來研究方向
- 開發更豐富的機器人表情,並探索更複雜的情感互動模式。
- 將語音資訊整合到情感識別模型中,進一步提高情感識別的準確性。
統計資料
UGotMe-VL2E 在情感回應準確度方面比 UGotMe-TelME 提高了 26.66%,使用者體驗評分提高了 1.74。
與未採用客製化主動人臉提取策略的 UGotMe-VL2E1 相比,UGotMe-VL2E 的情感回應準確度提高了 18.21%,使用者體驗評分提高了 1.26。
在 MELD 資料集上,VL2E 模型的 F1 分數比 DialogueRNN 提高了 10.26%,比 ConGCN 提高了 7.89%,比 MMGCN 提高了 8.64%,比 GA2MIF 提高了 8.35%,比 FacialMMT 提高了 0.71%。
引述
"To tackle both challenges, we introduce an affective human-robot interaction system called UGotMe, designed specifically for multiparty human-robot conversations."
"We propose two denoising strategies—face extraction and customized active face extraction—to address the embodiment issue related to environmental noise in multiparty conversation scenarios."
"The Vision-Language to Emotion (VL2E) model dedicated to emotion recognition in multiparty conversation is designed to be compatible with the aforementioned denoising strategies."
"Real-world deployment experiments demonstrate that UGotMe effectively provides appropriate emotional responses to human interactants while maintaining a positive user experience, even in the presence of distracting factors."