核心概念
本文提出了一種基於先驗知識的客觀推論網路 (POI),用於解決臉部表情辨識 (FER) 中由於主觀標註所造成的不確定性問題,並透過客觀推論和不確定性估計來提高 FER 的準確性。
研究目標
本研究旨在解決臉部表情辨識 (FER) 中,由於觀察者主觀判斷所造成的標註模糊性問題。
方法
本研究提出了一種新穎的基於先驗的客觀推論 (POI) 網路,該網路利用先驗知識來推斷相對客觀的情緒分佈,並透過動態知識轉移來解決主觀標註模糊性的問題。POI 主要由兩個關鍵網路組成:
先驗推論網路 (PIN):利用動作單元 (AU) 和情緒的先驗知識來捕捉複雜的運動細節,並透過整合來自各個關鍵臉部子區域的推論知識來減少對先驗的過度依賴,促進相互學習,從而獲得更客觀和多樣化的情緒分佈。
目標辨識網路 (TRN):整合主觀情緒標註和 PIN 提供的客觀推論軟標籤,促進對固有臉部表情多樣性的理解,從而解決標註模糊性。此外,TRN 還引入了一個不確定性估計模組,用於量化和平衡臉部表情的置信度,從而能夠靈活地處理主觀標註的不確定性。
主要發現
POI 在合成雜訊資料集和多個真實世界資料集上均表現出具有競爭力的效能。
透過客觀推論模組 (OIM) 整合來自多個子區域的中間預測並引導其相互學習,可以減少對不確定先驗監督和情緒標註混淆的依賴,從而提高效能。
不確定性估計模組 (UEM) 能夠有效地評估臉部表情的置信度,並根據臉部表情的一致性來評估臉部表情的置信度,特別是在沒有明確情緒標籤的情況下。
結論
本研究提出的 POI 網路有效地解決了標註模糊性問題,並在流行的真實世界基準測試和合成雜訊資料集上取得了具有競爭力的結果。
意義
本研究為解決主觀標註所造成的不確定性問題提供了新的思路,並提出了一種基於先驗知識的客觀推論網路,為提高 FER 的準確性和可靠性做出了貢獻。
局限性和未來研究方向
本研究主要關注於六種基本情緒和中性情緒的辨識,未來可以進一步擴展到更細粒度的情緒類別。
本研究使用的先驗知識主要來自於公開的資料集和文獻,未來可以考慮結合特定領域的先驗知識來進一步提高模型的效能。
統計資料
在 RAF-DB、FERPlus 和 AffectNet 資料集上,在 10%、20% 和 30% 的合成雜訊條件下,POI 的效能分別比 RUL 方法平均高出 1.07%、1.47% 和 2.5%。
在 30% 標註雜訊的情況下,POI 在 RAF-DB、FERPlus 和 AffectNet 資料集上的效能分別比 RUL 方法高出 3.24%、1.68% 和 2.85%。
在 RAF-DB 和 AffectNet 資料集上,30% 高置信度子集 (30%↑) 的辨識效能分別比 30% 低置信度子集 (30%↓) 高出 24.8% 和 21.73%。