이 연구는 이미지 데이터셋에서 사전 학습된 비전-언어 모델을 비디오 도메인으로 효과적으로 적응시키는 방법을 제안합니다. 이를 통해 수백만 개의 비디오에 대한 고품질의 의사 캡션을 생성할 수 있습니다.
동적 앵커 쿼리 기법을 도입하여 새로 등장하거나 사라지는 객체를 효과적으로 처리할 수 있는 비디오 세그멘테이션 모델을 제안한다.
순환 신경망 기반 비디오 초해상도 모델의 안정성을 향상시키기 위해 비디오 속성에 따라 다양한 은닉 상태를 학습하는 방법을 제안한다.
본 연구는 무감독 비디오 객체 분할을 위해 이중 프로토타입 어텐션 메커니즘을 제안한다. 이를 통해 다중 모달리티 융합과 시간적 정보 통합을 효과적으로 달성할 수 있다.
변형 가능한 주의 집중 메커니즘을 활용하여 시간에 따른 변화에 적응적인 객체 표현을 학습하고, 교사-학생 네트워크 간 주의 집중 맵과 로짓 값 전달을 통해 경량화된 비디오 객체 분할 모델을 학습한다.
본 연구는 비디오 객체 분할을 위해 변형 가능한 주의 집중 메커니즘을 활용한 자기 지도 학습 방법을 제안한다. 이를 통해 시간에 따른 변화에 적응적인 객체 표현을 학습할 수 있으며, 경량화된 네트워크 구조로 인해 저전력 장치에 통합이 가능하다.
비디오 배포 과정에서 발생하는 에너지 소비를 줄이면서도 사용자 경험의 질을 유지하는 방법을 제안한다.
본 논문은 메모리 기반 비디오 객체 분할 방법에 객체 수준의 인식과 동적 예측을 도입하여 성능을 크게 향상시킨다. 구체적으로 객체 쿼리를 활용하여 객체 수준의 인식을 제공하고, 이를 통해 다중 객체 간 상호작용과 효과적인 콘텐츠 이해를 실현한다.
딥러닝 기반 키포인트 예측을 통해 비디오 모션 전송 애플리케이션의 대역폭 사용을 효율적으로 줄일 수 있다.
본 논문은 압축 비디오에 내재된 유용한 코딩 사전(motion vector, predictive frame, residual frame)을 활용하여 시간적 및 공간적 정보를 효과적으로 집계함으로써 압축 비디오의 화질을 향상시키는 CPGA 네트워크를 제안한다.