이 논문은 CityLLaVA라는 도시 시나리오에서 VLM(Visual Language Model)의 효율적인 미세 조정 방법을 소개합니다.
주요 내용은 다음과 같습니다:
최적의 시각 데이터 전처리를 위해 경계 상자를 활용하여 비디오 최적 뷰 선택 및 시각적 프롬프트 엔지니어링을 수행합니다.
간결한 질문-답변 시퀀스를 구축하고 텍스트 프롬프트를 설계하여 지시 이해를 개선합니다.
블록 확장을 구현하여 대규모 VLM을 효율적으로 미세 조정합니다.
순차적 질문 기반 예측 증강을 통해 예측 정확도를 향상시킵니다.
실험 결과, 제안된 방법은 벤치마크 점수 33.4308을 달성하여 리더보드 1위를 차지했습니다. 이는 도시 환경에서 VLM의 성능을 크게 향상시킬 수 있음을 보여줍니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhizhao Duan... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03194.pdfDeeper Inquiries