이 논문은 개방형 어휘 범주 수준 객체 자세 및 크기 추정이라는 새로운 문제를 소개합니다. 이를 위해 OO3D-9D라는 대규모 사실적 데이터셋을 제안합니다. OO3D-9D는 범주 수준 객체 자세 및 크기 추정 분야에서 가장 큰 규모이자 가장 다양한 데이터셋입니다. 또한 객체의 대칭축 주석을 추가하여 대칭 모호성을 해결할 수 있습니다.
데이터셋 외에도 사전 학습된 시각-언어 기반 모델의 강력한 사전 지식을 활용하는 것이 이러한 일반화 능력을 가능하게 하는 핵심 요소입니다. 저자들은 사전 학습된 DinoV2와 텍스트-이미지 안정 확산 모델을 활용하는 프레임워크를 제안합니다. 이 프레임워크는 DinoV2의 시각 의미 사전 지식과 텍스트-이미지 확산 모델 내의 정렬된 시각 및 언어 지식을 완전히 활용하여 다양한 텍스트 설명의 새로운 범주에 일반화할 수 있습니다.
종합적인 정량적 및 정성적 실험은 제안된 개방형 어휘 방법이 대규모 합성 데이터로 학습되어 기준선을 크게 능가하며 실제 세계 이미지의 새로운 범주에 효과적으로 일반화할 수 있음을 보여줍니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Junhao Cai,Y... at arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12396.pdfDeeper Inquiries