本研究は、不完全なデータ環境下でロバストなマルチモーダル共同表現を学習することで、マルチモーダル感情認識の性能を向上させる。
本研究では、音響特徴の適応、視覚特徴のアラインメント、そしてマルチモーダル特徴融合の3つのステージからなるマルチモーダル感情認識手法を提案する。この手法により、感情認識タスクに最適化された音響特徴の抽出、視覚特徴と音響特徴の意味的な整合性の向上、そしてマルチモーダル特徴の効果的な融合が実現される。
本研究では、オーディオ情報を活用したマルチモーダル特徴融合手法を提案し、半教師あり学習環境下での感情認識精度向上に成功した。
本論文では、マルチモーダル感情認識の統一的な評価ベンチマーク「MERBench」を構築し、特徴選択、マルチモーダル融合、ノイズロバスト性、言語感度分析などの重要な技術的側面を明らかにする。また、中国語環境を対象とした新しい感情データセット「MER2023」を提案し、マルチラベル学習、ノイズロバスト性、半教師あり学習の評価に活用する。
動的モダリティ選択と動的ビュー選択は、欠落モダリティを持つマルチモーダル感情認識において有望なアプローチである。