핵심 개념
대규모 언어 모델(LLM)에서 추출한 선언적 지식을 활용하여 시각적 질문 답변(VQA) 시스템의 추론 능력을 향상시키는 방법을 제시합니다.
초록
대규모 언어 모델에서 선언적 지식 추출을 통한 시각적 질문 답변 데이터셋의 성능 향상
본 연구는 대규모 언어 모델(LLM)에서 추출한 선언적 지식을 사용하여 시각적 질문 답변(VQA) 시스템의 추론 구성 요소를 자동으로 생성하고 향상시키는 것을 목표로 합니다.
본 연구에서는 앤서셋 프로그래밍(ASP)을 기반으로 하는 두 가지 VQA 시스템, 즉 CLEVR 및 GQA 데이터셋을 사용합니다.
지식 증류 방법: LLM을 사용하여 초기 ASP 이론을 확장하여 VQA 작업의 요구 사항을 충족합니다. VQA 데이터셋의 예제를 사용하여 LLM을 안내하고 결과의 유효성을 검사하며 ASP 해결 프로그램의 피드백을 사용하여 규칙을 수정합니다.
예제 샘플링 전략: 효율적인 지식 증류 프로세스를 위해 '술어 개수' 및 '술어 관련성'이라는 두 가지 샘플링 전략을 제안합니다.
배치 최적화: LLM 호출 횟수를 줄이기 위해 여러 인스턴스를 하나의 배치로 제공하는 배치 처리 변형을 사용합니다.