이 논문은 복잡한 시각 작업을 해결하기 위한 새로운 방법인 Visual Program Distillation(VPD)을 소개한다. VPD는 대형 언어 모델(LLM)을 사용하여 프로그램을 생성하고, 이를 실행하여 정확한 프로그램을 선별한 후 자연어 설명으로 변환한다. 이를 통해 단일 비전-언어 모델(VLM)에 추론 능력을 증류한다.
VPD는 다음과 같은 단계로 구성된다:
이를 통해 VPD 모델은 기존 VLM 모델보다 세기, 공간 관계 이해, 복합적 추론 능력이 향상되었다. 실험 결과, VPD 기반 모델인 PaLI-X-VPD가 다양한 벤치마크에서 새로운 최고 성능을 달성했다. 또한 사람 평가에서도 PaLI-X-VPD가 더 정확하고 일관성 있는 답변과 설명을 제공하는 것으로 나타났다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yushi Hu,Oti... a las arxiv.org 04-08-2024
https://arxiv.org/pdf/2312.03052.pdfConsultas más profundas