提案手法HACULは、変分型ハイパーグラフ自己符号化器(VHGAE)を用いて動的にハイパーグラフの接続を調整し、コントラスト学習を活用することで、冗長性を低減し、精度を向上させる。
本研究では、マルチモーダル情報の一貫性を確保し、長期的な文脈情報を効果的に捉えるために、Mamba強化テキスト-オーディオ-ビデオアラインメントネットワーク(MaTAV)を提案した。MaTAVは、MELD and IEMOCAPデータセットにおいて、既存の最先端手法を大幅に上回る性能を示した。
会話の文脈を取り入れたメトリック学習アプローチにより、効率的で軽量な感情認識モデルを実現する。