Основні поняття
대규모 언어 모델(LLM)에서 추출한 선언적 지식을 활용하여 시각적 질문 답변(VQA) 시스템의 추론 능력을 향상시키는 방법을 제시합니다.
Анотація
대규모 언어 모델에서 선언적 지식 추출을 통한 시각적 질문 답변 데이터셋의 성능 향상
본 연구는 대규모 언어 모델(LLM)에서 추출한 선언적 지식을 사용하여 시각적 질문 답변(VQA) 시스템의 추론 구성 요소를 자동으로 생성하고 향상시키는 것을 목표로 합니다.
본 연구에서는 앤서셋 프로그래밍(ASP)을 기반으로 하는 두 가지 VQA 시스템, 즉 CLEVR 및 GQA 데이터셋을 사용합니다.
지식 증류 방법: LLM을 사용하여 초기 ASP 이론을 확장하여 VQA 작업의 요구 사항을 충족합니다. VQA 데이터셋의 예제를 사용하여 LLM을 안내하고 결과의 유효성을 검사하며 ASP 해결 프로그램의 피드백을 사용하여 규칙을 수정합니다.
예제 샘플링 전략: 효율적인 지식 증류 프로세스를 위해 '술어 개수' 및 '술어 관련성'이라는 두 가지 샘플링 전략을 제안합니다.
배치 최적화: LLM 호출 횟수를 줄이기 위해 여러 인스턴스를 하나의 배치로 제공하는 배치 처리 변형을 사용합니다.