이 연구는 단일 이미지 깊이 추정(Monocular Depth Estimation, MDE)을 위해 언어 모델에 내재된 깊이 편향을 활용하는 방법을 제안한다.
MDE는 본질적으로 모호한 문제이지만, 생물학적 시각 시스템과 딥러닝 MDE 방법은 문맥적 단서와 세계에 대한 가정을 활용하여 성공을 거두었다. 이 연구는 인간 언어에 내재된 깊이 편향이 MDE 성능 향상에 도움이 될 수 있다고 가정한다.
연구 내용은 다음과 같다:
실험 결과, BERT 언어 모델에 내재된 깊이 편향을 효과적으로 추출할 수 있었고, 이를 MDE 모델에 통합하여 성능 향상을 달성할 수 있었다. 특히 BERT-tiny 임베딩을 사용한 모델이 가장 좋은 성능을 보였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究