แนวคิดหลัก
マルチモーダル感情認識は重要な研究分野であり、データ不足や環境ノイズなどの課題に取り組むため、半教師あり学習、ノイズ耐性、オープンボキャブラリーの3つのトラックを設定した。
บทคัดย่อ
本論文は、マルチモーダル感情認識に関する課題MER2024について説明している。
MER2024は、MER2023の拡張版で、以下の3つのトラックから構成される:
- MER-SEMI:
- 少量の教師あり学習データと大量の教師なしデータを活用し、より良いパフォーマンスを実現する半教師あり学習手法を探索する。
- MER-NOISE:
- 実環境では音声ノイズや画像ブラー等のノイズが存在するため、ノイズ耐性の高い感情認識システムの開発を目指す。
- MER-OV:
- 既存のデータセットでは感情ラベルの選択肢が限定されているが、本トラックではキャラクターの感情状態をより正確に記述するためのオープンボキャブラリー感情認識を行う。
論文では、各トラックのデータセット構築、ベースライン手法、評価指標について詳しく説明している。実験結果からは、モダリティ融合や事前学習モデルの活用が有効であることが示された。しかし、オープンボキャブラリー感情認識はまだ課題が残されており、今後の発展が期待される。
สถิติ
音声ノイズを加える際は、5dB~10dBのSNR比で雑音を追加する。
画像ブラーノイズを生成する際は、ダウンサンプリング率を1、2、4から選択する。
คำพูด
"マルチモーダル感情認識は重要な研究分野であり、データ不足や環境ノイズなどの課題に取り組むため、半教師あり学習、ノイズ耐性、オープンボキャブラリーの3つのトラックを設定した。"
"既存のデータセットでは感情ラベルの選択肢が限定されているが、本トラックではキャラクターの感情状態をより正確に記述するためのオープンボキャブラリー感情認識を行う。"