이 논문은 LHRS-Bot, 원격 감지 분야를 위한 새로운 멀티모달 언어 모델을 소개한다.
LHRS-Bot을 개발하기 위해 다음과 같은 노력을 기울였다:
LHRS-Align: 전 세계적으로 이용 가능한 VGI(자발적 지리 정보)와 원격 감지 이미지를 활용하여 구축한 대규모 원격 감지 이미지-텍스트 데이터셋.
LHRS-Instruct: 다양한 원격 감지 이미지 이해 과제를 위한 멀티모달 지시 데이터셋.
다중 수준의 비전-언어 정렬 전략과 커리큘럼 학습 방법을 활용하여 LHRS-Bot을 설계. 이를 통해 LHRS-Bot은 원격 감지 이미지에 대한 깊이 있는 이해와 복잡한 지시 수행 능력을 갖추게 되었다.
LHRS-Bench: 원격 감지 분야 멀티모달 언어 모델의 성능을 종합적으로 평가할 수 있는 벤치마크 데이터셋.
실험 결과, LHRS-Bot은 다양한 원격 감지 이미지 이해 과제에서 기존 모델들을 크게 능가하는 성능을 보였다. 이는 LHRS-Bot이 원격 감지 분야에 대한 깊이 있는 이해와 추론 능력을 갖추고 있음을 보여준다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Dilxat Muhta... klo arxiv.org 03-19-2024
https://arxiv.org/pdf/2402.02544.pdfSyvällisempiä Kysymyksiä