Core Concepts
작은 사전 학습 이미지-텍스트 모델이 OCR 도구, 대형 언어 모델, 대형 멀티모달 모델의 중간 "근거"를 활용하여 시각적 문서를 정확하게 이해할 수 있다.
Abstract
이 논문은 시각적 문서 이해(VDU) 작업을 위한 효율적인 접근법인 "근거 증류(Rationale Distillation, RD)"를 제안한다. RD는 OCR 도구, 대형 언어 모델(LLM), 대형 멀티모달 모델의 출력을 중간 "근거"로 활용하여 작은 학생 모델이 이를 예측하고 최종 답변을 생성하도록 한다.
InfoVQA, DocVQA, ChartQA 벤치마크에서 RD를 적용한 결과, 기존 모델 대비 4-5% 정확도 향상을 보였으며, 계산 비용은 1% 미만 증가하였다.
RD는 다음과 같은 장점을 가진다:
추론 시 외부 도구 사용 불필요, 엔지니어링 복잡도 감소
중간 근거 예측만으로도 답변 생성 가능, 계산 비용 절감
데이터 증강 및 손실 함수 설계를 통해 학생 모델의 강건성 향상
분석 결과, RD는 텍스트 기반 근거 활용에서 큰 성능 향상을 보였으며, 표 및 프로그램 근거 활용에서도 유의미한 개선을 달성했다. 또한 RD를 통해 작은 모델이 대형 모델 및 도구 조합의 성능을 일부 따라잡을 수 있음을 확인했다.
Stats
26,000 ft 이상의 고도에서는 산소 부족으로 인간의 생존이 어렵다.
2017년 미국에 대한 신뢰도는 5%, 신뢰도 부족은 93%이다.
인스타그램 플랫폼은 고품질 이미지와 동영상이 많이 필요하다.
Quotes
"작은 사전 학습 이미지-텍스트 모델이 OCR 도구, 대형 언어 모델, 대형 멀티모달 모델의 중간 '근거'를 활용하여 시각적 문서를 정확하게 이해할 수 있다."
"RD는 다음과 같은 장점을 가진다: 1) 추론 시 외부 도구 사용 불필요, 엔지니어링 복잡도 감소 2) 중간 근거 예측만으로도 답변 생성 가능, 계산 비용 절감 3) 데이터 증강 및 손실 함수 설계를 통해 학생 모델의 강건성 향상."