Core Concepts
本文提出了一种新的框架LaIAR,通过利用语言模型的知识来增强视频模型的识别能力和可解释性。
Abstract
本文提出了一种新的框架LaIAR,旨在将语言模型的知识转移到视频模型,以提高视频模型的识别性能和可解释性。
具体来说,该框架包含一个语言模型和一个视频模型,两者共享相同的DT-Former架构。DT-Former被设计用于从视频中选择最重要的关系,并建模这些关系的细粒度转换。此外,该框架还包括三种新的知识转移策略,以促进语言模型向视频模型的知识转移。这不仅提高了性能,还增强了视频模型的可解释性。
实验结果表明,该方法在Charades和CAD-120数据集上取得了最先进的性能,并且在面对领域转移时也表现出了良好的鲁棒性。此外,通过可视化示例,我们展示了该方法如何提供对动作推理过程的明确解释。
Stats
在Charades数据集上,我们的方法在mAP指标上达到了63.6%,优于之前的方法。
在CAD-120数据集上,我们的方法在mAR指标上达到了0.85,也优于之前的方法。