본 연구는 실세계 장면 이해를 위한 새로운 객체 중심 트랜스포머 기반 네트워크인 DOCTR를 제안한다. DOCTR는 다양한 객체와 다양한 하위 작업을 통합적으로 학습할 수 있다.
DOCTR의 주요 구성은 다음과 같다:
DOCTR의 핵심 설계인 SGDQ는 의미 정보와 기하학적 정보를 분리하여 각 하위 작업에 최적화된 표현을 학습할 수 있게 한다. 또한 하이브리드 이분 매칭 기법을 통해 다양한 하위 작업 간 정합성 있는 학습이 가능하다.
실험 결과, DOCTR는 기존 최신 방법들에 비해 객체 인식 정확도, 자세 추정 정확도, 형상 복원 품질 등에서 큰 성능 향상을 보였다. 특히 근접한 객체가 많은 복잡한 장면에서 우수한 성능을 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xiaoxuan Yu,... lúc arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16431.pdfYêu cầu sâu hơn