Core Concepts
현대 다중 모달 대규모 언어 모델의 반사실적 추론 능력에 상당한 격차가 있음을 보여준다.
Abstract
이 논문은 다중 모달 대규모 언어 모델의 반사실적 추론 능력을 평가하기 위해 새로운 데이터셋 C-VQA를 소개한다. C-VQA는 원래 VQAv2 데이터셋을 기반으로 하며, 각 질문에 반사실적 전제가 추가되어 있다. 이를 통해 모델이 이미지 내용을 이해하고 주어진 시나리오에 따라 추론할 수 있는지 평가한다.
실험 결과, 현대 최첨단 다중 모달 언어 모델들이 반사실적 질문에 대해 상당한 성능 저하를 보였다. 신경-기호 모델은 복잡한 반사실적 추론에 어려움을 겪었고, 종단 간 모델 또한 일관되게 반사실적 질문을 해결하지 못했다. 심지어 GPT-4V와 같은 강력한 모델도 이 벤치마크를 해결하지 못했다. 또한 모델들은 성별 관련 반사실적 질문에 편향된 모습을 보였다.
이 연구 결과는 현재 다중 모달 언어 모델의 반사실적 추론 능력에 상당한 격차가 있음을 보여주며, 이를 해결하기 위한 새로운 접근법이 필요함을 시사한다.
Stats
현대 최첨단 다중 모달 언어 모델들이 반사실적 질문에 대해 최대 40%의 성능 저하를 보였다.
신경-기호 모델은 복잡한 반사실적 추론 과제에서 종단 간 모델보다 더 큰 성능 저하를 보였다.
GPT-4V와 같은 강력한 모델도 C-VQA 벤치마크를 해결하지 못했다.
모델들은 성별 관련 반사실적 질문에 편향된 모습을 보였다.
Quotes
"Counterfactuals are the building blocks of moral behavior as well as scientific thought."
— Judea Pearl, The Book of Why