본 연구는 시간 동작 위치 추정(Temporal Action Localization, TAL) 문제에 대한 비지도 도메인 적응 기법을 처음으로 제안한다. TAL은 비디오에서 동작의 시간 구간과 동작 카테고리를 동시에 식별하는 복잡한 작업이다. 기존 연구는 충분한 학습 데이터를 활용하여 모든 가능한 변동성을 다루려 했지만, 실제 상황에서는 이를 달성하기 어렵다. 이로 인해 모델은 예상치 못한 도메인 간 차이에 노출되어 성능이 크게 저하된다.
이를 해결하기 위해 본 연구는 비지도 도메인 적응(Unsupervised Domain Adaptation, UDA) 기법을 처음으로 TAL 문제에 적용한다. 구체적으로 새로운 손실 함수인 SADA를 제안하여 소스 도메인과 타겟 도메인 간 특징을 의미적으로 유의미한 방식으로 정렬한다. SADA는 기존 전역 분포 정렬 기법의 한계를 극복하기 위해 클래스 단위 분포 정렬을 수행한다.
또한 본 연구는 EpicKitchens100과 CharadesEgo 데이터셋을 활용하여 다양한 도메인 간 차이를 고려한 새로운 벤치마크를 제안한다. 실험 결과, SADA는 기존 완전 지도 학습 및 UDA 기반 방법 대비 최대 6.14% mAP 성능 향상을 달성했다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor