이 논문은 변환기 모델이 입력 토큰의 구조적 정보에 직접적으로 인식하지 못하는 문제를 해결하기 위해 제안되었다. 기존의 위치 인코딩 방식은 주로 자연어 처리 작업을 위해 설계되었기 때문에, 3D 비전 작업에는 적합하지 않다고 주장한다.
이를 해결하기 위해 저자들은 기하학 인식 주의 메커니즘(GTA)을 제안한다. GTA는 쿼리와 키-값 쌍 간의 기하학적 관계를 직접 주의 메커니즘에 인코딩한다. 구체적으로, 각 키-값 토큰은 쿼리와 키-값 토큰 간의 기하학적 속성에 따라 결정되는 상대 변환에 의해 변환된다. 이를 통해 모델은 쿼리와 키-값 쌍을 동일한 좌표계에서 비교할 수 있게 된다.
저자들은 다양한 희소 다중 뷰 새로운 뷰 합성 데이터셋에서 실험을 수행했다. 실험 결과, GTA는 기존의 위치 인코딩 방식보다 학습 효율성과 성능이 크게 향상되었음을 보여준다. 또한 GTA는 물체 수준의 주의 집중을 빠르게 학습할 수 있다는 것을 확인했다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Takeru Miyat... ที่ arxiv.org 04-01-2024
https://arxiv.org/pdf/2310.10375.pdfสอบถามเพิ่มเติม