본 논문에서는 비디오에서 표정 발생 구간을 정확하게 찾아내는 표정 스포팅 작업을 위해 새롭고 효율적인 트랜스포머 기반 모델인 PESFormer를 제안합니다. 이 모델은 직접 타임스탬프 인코딩(DTE) 방식을 사용하여 기존 앵커 기반 방식의 한계를 극복하고, 모든 학습 구간을 활용하여 성능을 향상시킵니다.