이 논문은 복잡한 시각 작업을 해결하기 위한 새로운 방법인 Visual Program Distillation(VPD)을 소개한다. VPD는 대형 언어 모델(LLM)을 사용하여 프로그램을 생성하고, 이를 실행하여 정확한 프로그램을 선별한 후 자연어 설명으로 변환한다. 이를 통해 단일 비전-언어 모델(VLM)에 추론 능력을 증류한다.
VPD는 다음과 같은 단계로 구성된다:
이를 통해 VPD 모델은 기존 VLM 모델보다 세기, 공간 관계 이해, 복합적 추론 능력이 향상되었다. 실험 결과, VPD 기반 모델인 PaLI-X-VPD가 다양한 벤치마크에서 새로운 최고 성능을 달성했다. 또한 사람 평가에서도 PaLI-X-VPD가 더 정확하고 일관성 있는 답변과 설명을 제공하는 것으로 나타났다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询