VisioPhysioENetは、視覚的特徴と生理学的信号を統合することで、学習者の没入感を効果的に検出する。
本研究では、マルチモーダル情報の一貫性を確保し、長期的な文脈情報を効果的に捉えるために、Mamba強化テキスト-オーディオ-ビデオアラインメントネットワーク(MaTAV)を提案した。MaTAVは、MELD and IEMOCAPデータセットにおいて、既存の最先端手法を大幅に上回る性能を示した。