본 연구는 행동 탐지 작업을 3개의 이미지 생성 문제로 재정의하고, 제안된 ADI-Diff 프레임워크를 통해 이러한 이미지를 생성하는 방법을 제시한다. 또한 AD 이미지의 특성을 고려하여 이산 행동 탐지 확산 프로세스와 행-열 변환기 설계를 도입하여 성능을 향상시킨다.
비디오 내 안전모를 착용하지 않은 근로자를 식별하는 것이 이 콘텐츠의 핵심 메시지입니다.
비디오 객체(사람, 동물, 차량 등)와 그들의 상호작용이 비디오 분석의 핵심이라는 통찰을 바탕으로, 객체 지향 접근법을 통해 복잡한 쿼리를 쉽게 개발할 수 있는 VQPy를 제안한다.
비디오 특징 벡터를 정상 데이터의 고정 분포를 가진 무작위 변수로 간주하고, 신경망으로 이 분포의 확률 밀도 함수를 근사하여 이상 탐지를 수행한다.
본 논문에서는 트랜스포머 기반의 간단하고 강력한 모델인 TAPTR을 제안한다. 각 프레임에서 추적 대상 점은 위치와 내용 정보로 구성된 쿼리로 표현되며, 이 쿼리는 레이어 간 업데이트를 통해 점진적으로 개선된다. 같은 추적 대상 점에 해당하는 쿼리들은 시간 차원의 자기 주의 메커니즘을 통해 정보를 교환할 수 있다. 이러한 DETR 기반 설계를 통해 모델이 개념적으로 매우 단순하면서도 강력한 성능을 보인다.
본 연구는 비디오 내 반복 동작의 불규칙성을 모델링하여 정확한 액션 카운팅을 달성하는 IVAC-P2L 프레임워크를 제안한다. 이를 위해 동작 주기 간 일관성과 주기-간격 불일치성이라는 두 가지 핵심 원리를 도입하고, 이를 반영하는 풀-푸시 손실 함수를 설계하였다.
본 연구는 비디오 내 반복적 행동의 불규칙성을 모델링하여 정확한 액션 카운팅을 달성하는 새로운 접근법을 제안한다. 이를 위해 주기 세그먼트 간 일관성과 주기-간격 세그먼트 간 불일치성이라는 두 가지 핵심 원리를 도입하고, 이를 반영하는 pull-push 손실 함수를 설계하였다.
본 연구는 비디오 내 반복 동작의 불규칙성을 모델링하여 정확한 액션 카운팅을 달성하는 IVAC-P2L 프레임워크를 제안한다. 이를 위해 동작 주기 간 일관성과 주기-간격 불일치성이라는 두 가지 핵심 원리를 도입하고, 이를 반영한 pull-push 손실 함수를 설계하였다.
비 대상 클래스로부터 유의미한 정보를 학습하여 반 지도 학습 시간 동작 탐지 성능을 향상시킨다.
OneVOS는 특징 추출, 매칭, 메모리 관리, 다중 객체 통합을 하나의 트랜스포머 아키텍처에 통합하여 전체적으로 최적화할 수 있는 새로운 비디오 객체 분할 프레임워크를 제안한다.