CLOVA는 일반 시각 어시스턴트를 구축하기 위해 추론, 반성, 학습의 3단계로 구성된다.
추론 단계에서는 대형 언어 모델(LLM)을 사용하여 프로그램을 생성하고 해당 프로그램을 실행하여 주어진 과제를 수행한다.
반성 단계에서는 다중 모달 전역-지역 반성 체계를 통해 사용자 피드백을 분석하여 업데이트가 필요한 도구를 식별한다.
학습 단계에서는 3가지 방식으로 데이터를 수집하고 검증-학습 프롬프트 튜닝 방식을 사용하여 도구를 효율적으로 업데이트한다. 또한 LLM도 올바른 예시와 잘못된 예시를 통해 지속적으로 학습한다.
실험 결과, CLOVA는 기존 도구 사용 방식 대비 시각 질문 답변 및 다중 이미지 추론에서 5%, 지식 태깅에서 10%, 이미지 편집에서 20% 향상된 성능을 보였다. 이는 일반 시각 어시스턴트에서 지속적 학습 능력의 중요성을 보여준다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Zhi Gao,Yunt... pada arxiv.org 04-01-2024
https://arxiv.org/pdf/2312.10908.pdfPertanyaan yang Lebih Dalam