이 논문은 참조 이미지 분할(Referring Image Segmentation, RIS) 문제를 해결하기 위한 새로운 접근법을 제안한다. RIS 문제는 이미지 내에서 주어진 텍스트 설명에 해당하는 객체를 정확하게 분할하는 것이다.
기존 RIS 모델들은 두 개의 인코더(비전 인코더와 언어 인코더)를 사용하는 이중 인코더 구조를 주로 사용해왔다. 그러나 이러한 이중 인코더 구조에서는 인코더 사전 학습 단계와 RIS 태스크 간의 멀티모달 상호작용 수준 불일치 문제가 발생한다.
이를 해결하기 위해 저자들은 단일 인코더 기반의 새로운 RIS 모델인 Shared-RIS를 제안한다. Shared-RIS는 BEiT-3라는 단일 인코더를 활용하여 입력 데이터의 비전과 언어 정보를 통합적으로 처리한다. 또한 Shared FPN과 Shared Mask Decoder 모듈을 통해 효율적이면서도 정확한 분할 결과를 생성한다.
실험 결과, Shared-RIS는 기존 이중 인코더 기반 RIS 모델들을 크게 능가하는 성능을 보였으며, 동시에 매개변수 수와 계산량 측면에서도 매우 효율적인 것으로 나타났다. 이는 저자들이 제안한 단일 인코더 기반의 통합적 멀티모달 처리 방식이 RIS 문제에 매우 적합함을 보여준다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Seonghoon Yu... في arxiv.org 09-20-2024
https://arxiv.org/pdf/2408.15521.pdfاستفسارات أعمق