본 연구 논문에서는 복잡한 다인물 시나리오에서 정확하고 효율적인 인터랙티브 매팅을 가능하게 하는 새로운 프레임워크인 DFIMat을 제안합니다. 저자들은 기존의 인터랙티브 매팅 방법들이 복잡한 실제 시나리오, 특히 심각한 가려짐이 있는 다인물 장면에서 성능이 저하되는 세 가지 주요 원인을 제시합니다. 첫째, 기존 방법들은 대부분 매팅 결과를 직접 예측하는 결합된 네트워크를 사용하여 해석 가능성이 부족하고 부적절한 모델링을 초래합니다. 둘째, 기존 연구는 단일 유형의 사용자 입력으로 제한되어 의도 이해에 비효율적이며 사용자 조작에도 비효율적입니다. 셋째, 사용자 상호 작용에 중요한 다중 라운드 특성이 충분히 탐구되지 않았습니다.
이러한 한계를 완화하기 위해 저자들은 유연한 인터랙티브 매팅을 가능하게 하는 분리된 프레임워크인 DFIMat을 제안합니다. 특히, 이 작업을 장면 의미론 및 유연한 사용자 입력을 이해하여 대상 인스턴스를 지역화하는 작업과 인스턴스 수준 매팅을 위해 미세 조정을 수행하는 두 가지 하위 작업으로 분리합니다. 이 규칙에 따라 저자들은 각각 두 가지 작업을 해결하기 위해 인터랙티브 의미 캡처 네트워크(ISCN)와 매팅 미세 조정 네트워크(MRN)를 설계했습니다.
ISCN 내에서 클릭, 스크리블, 상자, 텍스트 또는 이들의 조합과 같은 다중 모달 사용자 입력을 활성화하여 보다 간결하고 유연하며 효율적인 상호 작용을 가능하게 합니다. 이는 다양한 입력을 통합된 시각적 의미 공간으로 인코딩하고 디코더에서 강력한 상호 작용을 구축하여 사용자 의도를 이해하고 인스턴스 지역화를 위한 대상 인스턴스 마스크를 예측함으로써 달성됩니다. 실용적인 요구 사항을 충족하기 위해 DFIMat은 대조적 추론 모듈을 설계하여 모델 예측과 사용자 의도 간의 일관성을 평가하는 동시에 각 라운드의 상호 작용 중에 충돌 영역을 명시적으로 식별하고 추론하여 교차 라운드 미세 조정을 위한 귀중한 보조 지침을 제공합니다.
MRN의 경우 전역 인스턴스 수준 고려 사항과 함께 세분화된 로컬 세부 정보를 효과적으로 캡처하는 이중 분기 네트워크를 구축합니다. 표 1에서 요약한 바와 같이 DFIMat은 (1) 다중 유형의 사용자 입력 지원, (2) 각 시간에 서로 다른 입력 유형(단일 입력 포함)의 조합 허용, (3) 다중 라운드 반복 기능에서 기존 작업과 차별화됩니다. 이러한 속성은 실험에서 확인된 바와 같이 사용자 친화적이고 효율성이 뛰어납니다.
데이터는 방법 교육 및 평가를 위한 또 다른 중요한 포인트입니다. 다인물 매팅을 위한 실제 이미지 데이터 세트의 양은 데이터 수집 및 주석 비용으로 인해 여전히 상대적으로 적습니다. 여러 인스턴스 장면이 포함된 많은 양의 매팅 데이터를 얻기 위해 이전 방법[17, 30]에서는 간단한 합성 전략을 채택하여 인물이 없는 배경에 인물 전경을 반복적으로 추가합니다. 추가 위치의 임의성과 인스턴스-장면 사전 고려 사항의 부족으로 인해 합성 이미지와 자연 이미지 간에 큰 차이가 있는 경우가 많으므로 교육 및 평가에 보다 사실적이고 복잡한 이미지를 활용하는 것이 좋습니다. 이러한 차이를 메우기 위해 저자들은 훨씬 더 다양하고 사실적인 샘플을 생성할 수 있는 새로운 합성 데이터 생성 파이프라인을 설계하고 고품질 매트 GT가 있는 40,000개의 사실적인 다중 인스턴스 이미지로 구성된 새로운 대규모 데이터 세트 SPMMat을 구축합니다.
광범위한 실험을 통해 DFIMat이 대표적인 방법보다 우수함을 확인했습니다. 특히 DFIMat은 까다로운 SMPMat 데이터 세트에서 이전 SOTA보다 3.48 SAD만큼 뛰어난 효율성으로 능가합니다. 또한 그림 1과 같이 SOTA 방법 매개변수의 33%에 불과한 보다 가벼운 버전인 DFIMat-S를 제공하면서도 더 높은 매팅 정확도를 달성합니다. DFIMat을 활용하여 서로 다른 입력 유형의 역할을 조사하고 사용자에게 보다 효과적인 상호 작용에 대한 귀중한 원칙을 제공합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문