Concepts de base
본 논문에서는 도로 환경에서 복잡하고 동시적인 행동을 더 잘 인식하기 위해 강력한 시각적 특징 추출 및 향상된 주의력 메커니즘을 활용한 다중 레이블 원자 활동 인식 프레임워크를 제안합니다.
Résumé
ROAD++ 원자 활동 인식 챌린지 2024 참가 논문 분석: 강력한 시각적 특징과 향상된 주의력 메커니즘을 통한 다중 레이블 원자 활동 인식 개선
본 논문은 컴퓨터 비전 분야, 특히 다중 레이블 원자 활동 인식에 대한 연구 논문입니다.
본 연구는 도로 교통 환경에서 발생하는 복잡하고 미묘한 행동을 정확하게 인식하는 것을 목표로 합니다. 이를 위해 다중 레이블 원자 활동 인식 작업의 정확도를 향상시키는 데 중점을 둡니다.
연구팀은 데이터 처리, 모델 최적화, 후처리 세 가지 측면에서 시스템을 개선했습니다.
데이터 처리: 이미지 해상도를 조정하고 고정된 샘플링 전략을 사용하여 계산 효율성을 높이고 평가의 일관성을 확보했습니다.
모델 최적화: X3D 및 SlowFast와 같은 다양한 시각적 백본 네트워크를 활용하여 강력한 특징 추출을 수행하고, 슬롯 어텐션 메커니즘을 통해 행동 중심 표현 학습을 가능하게 했습니다.
후처리: 다양한 백본 모델의 출력을 결합하기 위해 모델 앙상블 기술을 사용하여 각 모델의 강점을 활용하고 전반적인 정확도를 향상시켰습니다.