핵심 개념
본 논문에서는 비디오에서 표정 발생 구간을 정확하게 찾아내는 표정 스포팅 작업을 위해 새롭고 효율적인 트랜스포머 기반 모델인 PESFormer를 제안합니다. 이 모델은 직접 타임스탬프 인코딩(DTE) 방식을 사용하여 기존 앵커 기반 방식의 한계를 극복하고, 모든 학습 구간을 활용하여 성능을 향상시킵니다.
초록
PESFormer: 직접 타임스탬프 인코딩을 사용한 매크로 및 마이크로 표정 스포팅 향상
본 연구는 트리밍되지 않은 비디오에서 매크로 및 마이크로 표정 인스턴스를 정확하게 찾아내고 분류하는 것을 목표로 합니다. 특히, 기존 앵커 기반 방법의 한계를 극복하고, 학습 과정을 단순화하며, 모든 학습 구간을 효율적으로 활용하는 새로운 표정 스포팅 모델을 제시합니다.
본 논문에서 제안하는 PESFormer는 비전 트랜스포머 아키텍처를 기반으로 하며, 직접 타임스탬프 인코딩(DTE) 방식을 사용합니다.
직접 타임스탬프 인코딩 (DTE)
기존 앵커 기반 방식은 미리 정의된 앵커를 사용하여 Ground Truth를 인코딩하고, 이를 기반으로 모델을 학습시킵니다. 하지만 이러한 방식은 모든 Ground Truth 구간을 커버하지 못하고, 복잡한 파라미터 튜닝이 필요하며, 테스트 과정에서 Non-Maximum Suppression (NMS)를 사용해야 하는 등의 단점이 있습니다.
반면, DTE는 각 타임스탬프 스니펫을 가장 작은 단위로 취급하여 Ground Truth를 직접 인코딩합니다. 즉, 앵커를 사용하지 않고 각 타임스탬프 스니펫이 전경에 속하는지 여부를 이진 분류 문제로 변환합니다. 이를 통해 학습 과정이 단순해지고, 모든 Ground Truth 구간을 효과적으로 활용할 수 있습니다.
제로 패딩 기반 고정 길이 전처리
기존 슬라이딩 윈도우 방식은 짧은 표정 구간을 놓칠 수 있고, 많은 학습 데이터를 생성하여 계산 비용이 증가하는 단점이 있습니다. 본 논문에서는 고정된 큰 길이 G를 사용하고, 짧은 비디오에는 제로 패딩을 추가하여 모든 Ground Truth를 유지하고 학습 구간 손실을 최소화합니다.
모델 구조
PESFormer는 입력 비디오 및 광학 흐름에서 특징을 추출하기 위해 2-스트림 I3D 모델을 사용합니다. 그 후, 임베딩 블록, 타임스탬프 인코더, 출력 디코더로 구성된 네트워크를 통해 스니펫 수준의 확률을 예측합니다. 타임스탬프 인코더는 여러 개의 트랜스포머 네트워크와 다운샘플링 트랜스포머(DTransformer) 네트워크를 포함하며, 다중 스케일 시간 정보를 추출합니다.
손실 함수
모델 학습에는 전경과 배경 타임스탬프 간의 불균형을 해결하기 위해 Focal Loss와 Dice Loss를 함께 사용합니다.