핵심 개념
Text-DiFuse는 텍스트 기반 멀티모달 이미지 융합 프레임워크로, 텍스트 변조 확산 모델을 기반으로 복합적인 이미지 저하 문제를 해결하고 사용자 지정 융합을 가능하게 합니다.
초록
Text-DiFuse: 텍스트 기반 멀티모달 이미지 융합 프레임워크 - 복합 저하 제거 및 사용자 정의 융합
본 논문은 복잡한 저하 환경에서 촬영된 멀티모달 이미지를 융합하고, 사용자의 의도에 따라 관심 객체를 재조정할 수 있는 새로운 텍스트 기반 멀티모달 이미지 융합 프레임워크인 Text-DiFuse를 제안합니다.
연구 배경
단일 모달 이미지는 장면을 정확하고 포괄적으로 설명하는 데 한계가 있어 자율 주행, 지능형 보안, 질병 진단과 같은 작업에서 활용도가 제한됩니다. 이미지 융합 기술은 여러 모달 이미지에서 유용한 정보를 통합하여 장면에 대한 인간과 기계의 인식을 향상시키는 고품질 시각 결과를 생성합니다. 그러나 기존의 멀티모달 이미지 융합 방법은 소스 이미지에 나타나는 복합적인 저하를 해결하지 못하여 노이즈, 색상 바이어스, 부적절한 노출 등으로 인해 융합 이미지의 품질이 저하되는 문제점이 있습니다. 또한 이러한 방법은 종종 전경 객체의 특수성을 간과하여 융합된 이미지 내에서 관심 객체의 현저성을 약화시킵니다.
기존 연구의 한계
딥 러닝 기반 이미지 융합 방법은 기존 방법보다 융합 성능이 크게 향상되었지만, 복합적인 저하가 있는 장면에서는 여전히 어려움을 겪습니다. 기존 방법은 저하된 이미지에서 효과적인 정보 복원을 고려하지 않고 멀티모달 정보 통합에 우선순위를 두기 때문입니다. 또한 기존 융합 방법은 장면의 객체(예: 보행자, 차량)의 특수성을 고려하지 않고 전경과 배경 모두에 동일한 융합 규칙을 무차별적으로 적용합니다. 이러한 차별성 부족은 중요한 객체의 묘사를 손상시킬 수 있습니다.
Text-DiFuse는 텍스트 변조 확산 모델을 기반으로 하여 복합적인 저하 문제를 해결하고 사용자 지정 융합을 가능하게 합니다.
복합 저하 제거를 위한 확산 모델
Text-DiFuse는 먼저 복합 저하가 있는 데이터에 대해 독립적인 조건부 확산을 적용하여 저하 제거 사전 정보를 인코더-디코더 네트워크에 포함합니다. 융합 제어 모듈(FCM)은 인코더와 디코더 사이에 내장되어 멀티모달 특징의 통합을 관리합니다. 여기에는 특징 수준에서 여러 확산 프로세스를 융합하여 T단계 샘플링 중에 저하를 제거하는 동시에 멀티모달 정보를 지속적으로 집계하는 작업이 포함됩니다. 이는 정보 융합을 확산 프로세스에 깊이 있고 명시적으로 포함시킨 최초의 시도이며, 이미지 융합 작업에서 복합적인 저하를 효과적으로 해결합니다.
텍스트 기반 융합 재조정 전략
확산 융합 중에 관심 객체에 대한 초점을 대화형으로 향상시키기 위해 텍스트 기반 융합 재조정 전략을 설계했습니다. 이 전략은 텍스트와 제로샷 위치 모델을 통합하여 관심 객체를 식별하고 찾은 다음 내장된 사전 정보를 사용하여 2차 변조를 수행하여 현저성을 향상시킵니다. 따라서 융합된 이미지의 시각적 품질과 의미 속성이 모두 크게 향상됩니다.