핵심 개념
시각적 질문 답변을 위해 관련 지식 베이스 정보를 효과적으로 검색하고 통합하는 것이 중요하다.
초록
이 연구는 시각적 질문 답변(VQA) 문제에서 관련 지식 베이스(KB) 정보를 효과적으로 검색하고 통합하는 방법을 제안한다.
- 질문과 관련된 KB 및 장면 그래프(SG) 정보를 감독 학습 기반 검색 모델을 통해 효과적으로 검색한다.
- 검색된 KB 및 SG 정보를 과제 특화 신경망 모델과 대규모 언어 모델(LLM) 기반 모델에 통합하여 최종 답변을 생성한다.
- 실험 결과, 제안된 검색 및 통합 방법이 기존 모델 대비 성능 향상에 기여함을 보여준다.
- LLM 모델은 1홉 추론에서 강점을 보이지만, 2홉 추론에서는 과제 특화 모델에 비해 성능이 낮은 것으로 나타났다.
- LLM 모델은 암묵적 지식으로 KB 관련 질문에 대해 과제 특화 모델보다 우수한 성능을 보였지만, 여전히 외부 KB가 필요한 것으로 확인되었다.
통계
제안된 KB 검색 모델의 top-1 정확도는 약 59%이며, top-100 정확도는 거의 100%이다.
제안된 SG 검색 모델의 top-1 정확도는 약 60%이며, top-100 정확도는 거의 100%이다.
과제 특화 신경망 모델(NN+(KBret+SGret))의 정확도는 44.36%이다.
LLM 모델(LLM+(KBret+SGret))의 정확도는 40.50%이다.
인용구
"시각적 질문 답변을 위해 관련 지식 베이스 정보를 효과적으로 검색하고 통합하는 것이 중요하다."
"LLM 모델은 1홉 추론에서 강점을 보이지만, 2홉 추론에서는 과제 특화 모델에 비해 성능이 낮은 것으로 나타났다."
"LLM 모델은 암묵적 지식으로 KB 관련 질문에 대해 과제 특화 모델보다 우수한 성능을 보였지만, 여전히 외부 KB가 필요한 것으로 확인되었다."