Core Concepts
音声と視覚データのシナジーを活用し、AU検出の精度向上を図る新しい手法を提案。
Abstract
人間の感情や行動を理解するために、音声データと視覚データの統合が重要。
提案手法は、MFCCとLog-Melスペクトログラム特徴量を使用して音声特徴抽出を強化し、事前学習済みのVGGishネットワークも活用。
時系列関係をモデリングして融合特徴量を適応的に捉え、事前学習済みのGPT-2モデルで多面的なコンテキストに富んだマルチモーダル情報融合を実現。
研究成果は、データの時間的および文脈的ニュアンスを理解することでAU検出精度が向上し、複雑なシナリオの理解に大きく貢献。
Introduction
人間の感情分析におけるFacial Action Units(AUs)検出の重要性。
従来の手法から深層学習への移行がAU検出に革新をもたらした経緯。
Method
ビデオデータの前処理から始まり、音声と視覚ストリームに分割される。
音声特徴はMFCCとLog-Melスペクトログラムから抽出され、VGGishネットワークで処理される。
TCN
ビデオシーケンスがTCN用に200連続フレームごとにセグメント化される。
Leveraging Pretrained Transformer GPT-2
TCNで得られた時系列特徴量がTransformerネットワークで結合される。
Experiment
Aff-Wild2データセットや実験設定、結果詳細が記載されている。
Stats
提案手法はAU検出精度を48.9%から53.7%まで向上させた。