核心概念
본 연구는 객체 중심 표현을 활용하여 다양한 객체와 다양한 하위 작업을 통합적으로 학습할 수 있는 새로운 분리된 객체 중심 트랜스포머(DOCTR) 모델을 제안한다. DOCTR는 의미 정보와 기하학적 정보를 별도로 학습할 수 있는 의미-기하 분리 쿼리(SGDQ) 설계를 통해 다양한 하위 작업을 효과적으로 수행할 수 있다.
摘要
본 연구는 실세계 장면 이해를 위한 새로운 객체 중심 트랜스포머 기반 네트워크인 DOCTR를 제안한다. DOCTR는 다양한 객체와 다양한 하위 작업을 통합적으로 학습할 수 있다.
DOCTR의 주요 구성은 다음과 같다:
- 스파스 3D U-Net 백본: 다중 스케일 포인트 특징을 추출한다.
- 분리된 트랜스포머 디코더(DTD): 의미-기하 분리 쿼리(SGDQ)를 사용하여 의미 정보와 기하학적 정보를 별도로 학습한다.
- 예측 헤드: SGDQ에서 객체의 마스크, 클래스, 박스(자세), 형상 코드를 예측한다.
- 형상 디코더: 예측된 형상 코드를 이용하여 객체의 완전한 메시를 재구성한다.
DOCTR의 핵심 설계인 SGDQ는 의미 정보와 기하학적 정보를 분리하여 각 하위 작업에 최적화된 표현을 학습할 수 있게 한다. 또한 하이브리드 이분 매칭 기법을 통해 다양한 하위 작업 간 정합성 있는 학습이 가능하다.
실험 결과, DOCTR는 기존 최신 방법들에 비해 객체 인식 정확도, 자세 추정 정확도, 형상 복원 품질 등에서 큰 성능 향상을 보였다. 특히 근접한 객체가 많은 복잡한 장면에서 우수한 성능을 보였다.
統計資料
객체 박스의 중심 좌표와 크기는 허버 손실 함수를 사용하여 학습한다.
객체 회전 각도는 교차 엔트로피 손실과 허버 손실을 사용하여 학습한다.
객체 형상 잠재 코드의 평균과 표준편차는 재구성 손실을 통해 학습한다.
引述
"본 연구는 객체 중심 표현을 활용하여 다양한 객체와 다양한 하위 작업을 통합적으로 학습할 수 있는 새로운 분리된 객체 중심 트랜스포머(DOCTR) 모델을 제안한다."
"DOCTR의 핵심 설계인 SGDQ는 의미 정보와 기하학적 정보를 분리하여 각 하위 작업에 최적화된 표현을 학습할 수 있게 한다."