本文提出了Spiking-PhysFormer,这是一种混合神经网络模型,将脉冲神经网络(SNN)与变换器架构相结合,用于基于摄像头的远程光电容积脉搏波(rPPG)测量。
Spiking-PhysFormer由三个主要部分组成:基于人工神经网络(ANN)的patch嵌入(PE)块、并行脉冲驱动变换器块和基于ANN的预测头。PE块用于从输入视频中提取丰富的时空特征表示,而简化的脉冲自注意(S3A)模块则引导模型关注关键特征。最终的预测头负责将这些特征映射到脉搏波峰值信号。
为了平衡性能和能效,我们采用了PhysFormer的设计用于PE块和预测头,并专门设计了基于SNN的变换器块。为了增强变换器块的全局时空注意力能力,我们提出了并行脉冲驱动变换器,结合时间差卷积(TDC)和脉冲驱动自注意(SDSA)机制,并行执行多层感知机(MLP)和注意力子模块,提高效率的同时最小化性能下降。此外,我们引入了简化的脉冲自注意(S3A),省略了值参数,进一步降低了注意力子块的复杂性。
实验结果表明,Spiking-PhysFormer相比PhysFormer,功耗降低了12.4%,变换器块的计算能耗降低了12.2倍,同时保持了与PhysFormer和其他基于ANN的模型相当的性能。基于脉冲发放率的时空注意力图分析也验证了Spiking-PhysFormer有效捕捉面部区域的空间维度特征,并识别脉搏波峰值的时间维度特征,证明了该方法的可解释性。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések