핵심 개념
본 논문에서는 인간과 기계 모두를 위한 효율적인 비디오 표현 및 압축을 가능하게 하는 새로운 비디오 코딩 패러다임을 제시합니다. 이를 위해 베이스 레이어에서 객체 감지를 지원하고, 인핸스먼트 레이어에서 베이스 레이어 정보를 활용하여 인간 시청을 위한 입력 복원을 지원하는 종단 간 학습 가능한 확장형 비디오 코덱을 소개합니다.
초록
서론
본 연구 논문에서는 인간과 기계 모두의 요구를 충족하는 새로운 비디오 코딩 패러다임을 제시합니다. 기존의 비디오 코딩 기술은 인간 시청에 최적화되어 있었지만, 최근 딥러닝 기반 머신 비전 기술의 발전으로 인해 기계 분석에 적합한 비디오 코딩 기술의 필요성이 대두되었습니다. 예를 들어 자동 교통 모니터링 시스템에서는 차량 감지, 추적 및 계산과 같은 분석 작업이 지속적으로 실행되어야 하지만, 잠재적인 사고를 검토하기 위한 인간의 시청은 간헐적으로만 필요할 수 있습니다. 이러한 요구 사항을 충족하기 위해 본 논문에서는 베이스 레이어에서 머신 비전 작업을 지원하고 인핸스먼트 레이어에서 인간 시청을 위한 입력 복원을 지원하는 새로운 확장형 비디오 코덱을 제안합니다.
인간과 기계 모두에 효율적인 비디오 표현 및 압축을 가능하게 하는 새로운 비디오 코딩 패러다임 개발.
베이스 레이어에서 객체 감지를 지원하고 인핸스먼트 레이어에서 인간 시청을 위한 입력 복원을 지원하는 종단 간 학습 가능한 확장형 비디오 코덱 설계 및 평가.
조건부 코딩 개념을 기반으로 베이스 레이어와 인핸스먼트 레이어로 구성된 확장형 비디오 코딩 시스템 구축.
베이스 레이어에서는 객체 감지 작업을 수행하기 위해 잘 알려진 DNN 기반 객체 감지 네트워크(YOLOv5)의 백엔드 활용.
인핸스먼트 레이어에서는 베이스 레이어를 기반으로 인간 시청을 위한 입력 복원을 수행하도록 설계.
4개의 표준 비디오 데이터 세트(HEVC Class B, C, D, E)를 사용하여 제안된 시스템의 성능을 평가.