본 연구는 실세계 장면 이해를 위한 새로운 객체 중심 트랜스포머 기반 네트워크인 DOCTR를 제안한다. DOCTR는 다양한 객체와 다양한 하위 작업을 통합적으로 학습할 수 있다.
DOCTR의 주요 구성은 다음과 같다:
DOCTR의 핵심 설계인 SGDQ는 의미 정보와 기하학적 정보를 분리하여 각 하위 작업에 최적화된 표현을 학습할 수 있게 한다. 또한 하이브리드 이분 매칭 기법을 통해 다양한 하위 작업 간 정합성 있는 학습이 가능하다.
실험 결과, DOCTR는 기존 최신 방법들에 비해 객체 인식 정확도, 자세 추정 정확도, 형상 복원 품질 등에서 큰 성능 향상을 보였다. 특히 근접한 객체가 많은 복잡한 장면에서 우수한 성능을 보였다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xiaoxuan Yu,... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16431.pdfDomande più approfondite