Conceitos essenciais
이 논문에서는 인간의 시각적 인식과 머신 비전 작업 모두에 높은 성능을 발휘하는 콘텐츠 적응형 확산 기반 이미지 압축 프레임워크를 제안합니다.
Resumo
이미지 특징 압축에 대한 콘텐츠 적응형 및 확산 기반 접근 방식
본 연구 논문에서는 인간의 시각적 품질과 머신 비전 작업 성능을 동시에 만족하는 콘텐츠 적응형 확산 기반 이미지 압축 프레임워크를 제안합니다. 기존의 이미지 코덱은 머신 비전 작업 성능을 저하시키면서까지 신호 충실도와 인간의 시각적 인식에 중점을 두었습니다. 딥러닝 기반의 방법은 인간과 머신 비전 모두에 최적화된 풍부한 의미론적 임베딩을 활용하여 압축 성능을 향상시켰지만, 여전히 세부적인 질감 정보 손실과 확장성 부족이라는 문제점을 가지고 있습니다.
본 논문에서는 콘텐츠 적응형 마르코프 팔레트 확산 모델을 사용하여 확장 가능한 이미지 압축을 위한 새로운 프레임워크를 제안합니다.
텍스처-의미론적 의사 레이블 추출
저수준 텍스처 특징과 고수준 의미론적 특징을 통합하여 이미지 데이터의 미묘한 텍스처와 복잡한 의미론적 개념을 모두 포착합니다. 또한, 보다 차별적인 텍스처 및 의미론적 정보를 포함하기 위해 대조 학습을 도입하여 잠재 특징 추출을 개선합니다.
텍스처-의미론적 표현 추출: ImageNet 데이터베이스에서 사전 훈련된 VGGNet-16을 이미지 인코더의 백본으로 사용하여 저수준 텍스처 특징과 고수준 의미론적 특징을 모두 추출합니다.
지각적 거리 측정: 추출된 텍스처 표현은 공간 좌표와의 상관관계가 높기 때문에 이미지의 이동, 회전 및 뒤집기에 매우 민감합니다. 따라서 텍스처 표현과 픽셀 좌표를 분리하기 위해 각 특징 맵에 대해 고속 푸리에 변환(FFT) 스펙트럼 분석을 수행합니다.
의사 레이블 생성 및 대조 학습: 이미지 패치를 클러스터링하고 의사 레이블을 생성하여 대조 학습을 위한 감독 신호를 제공합니다. 이를 통해 잠재 공간의 차별성을 향상시키고 확장 가능한 인코딩을 위한 잠재 공간을 얻습니다.
확산 기반 이미지 특징 압축
잠재 특징 표현을 완전히 완성된 것과 드문 드문 압축된 것 사이에서 전환할 수 있도록 하여 픽셀 세부 정보를 유지하거나 의미 정보를 보존합니다. 또한, 비트 전송률-지각적 트레이드 오프 조정 메커니즘은 동일한 모델 매개변수가 추론 프로세스 중에 가변 비트 전송률-지각적 품질 요구 사항을 충족할 수 있도록 확장 가능해야 합니다.
양자화: 압축 프로세스에서 양자화 모듈은 먼저 잠재 특징을 부동 소수점 값에서 8비트 부호 없는 정수 표현으로 양자화합니다.
팔레트 압축: 계층적 클러스터링 기반 팔레트 압축 알고리즘을 사용하여 이미지 콘텐츠에 적응하는 방식으로 K개 항목의 색상 조회 테이블(CLUT)을 생성합니다. 이를 통해 필요한 비트 수를 줄여 정보를 표현하고 허프만 코딩과 같은 추가 압축 알고리즘에 유리합니다.
마르코프 상태 전이 방정식: 테스트 단계에서 사용자가 압축 품질을 선택할 수 있도록 계층적 상향식 클러스터링 방법을 사용하여 점점 더 희소해지는 CLUT를 포함하는 팔레트의 마르코프 체인을 구축합니다.
확산의 역 과정: 압축 및 손상된 특징을 원래의 고비트 전송률 상태로 복원하는 방법을 학습하기 위해 확산 모델을 훈련합니다. 복원 연산자는 훈련 중에 U-Net을 통해 구현되며, 테스트 단계에서는 사용자가 지정한 압축 품질에 따라 압축된 표현을 입력으로 받아 완전한 표현으로 복구합니다.