本文提出了一种自监督学习方法SVFAP,用于解决视频面部情感分析中监督学习方法面临的困境。SVFAP利用被遮蔽的面部视频自编码作为预训练目标,从大规模无标签面部视频数据中学习强大的面部情感相关表征。
为了消除面部视频中的大量时空冗余,作者提出了一种新的时间金字塔和空间瓶颈Transformer(TPSBT)作为SVFAP的编码器。TPSBT不仅大幅降低了计算成本,而且在性能上也优于标准的Transformer。
通过在9个数据集上的实验验证,SVFAP在3个视频面部情感分析任务中均取得了最先进的性能,大幅超越了之前的方法。例如,在3个真实场景下的动态面部表情识别数据集上,SVFAP的最佳模型分别比之前最佳方法提高了5.72%的UAR和5.02%的WAR(DFEW)、4.38%的UAR和3.75%的WAR(FERV39k)、7.91%的UAR和6.10%的WAR(MAFW)。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Licai Sun, Z... alle arxiv.org 10-02-2024
https://arxiv.org/pdf/2401.00416.pdfDomande più approfondite