이 연구는 검은 상자 비전-언어 모델의 예측 불확실성을 식별하는 방법을 제안한다. 기존의 선별적 예측 방법들은 모델의 내부 구조에 대한 접근이 필요하거나 모델 재학습이 필요하다는 한계가 있다.
이 연구에서는 질문 문장의 일관성을 활용하여 검은 상자 모델의 신뢰할 수 없는 응답을 식별하는 방법을 제안한다. 질문 문장의 일관성은 모델이 해당 질문을 얼마나 잘 이해하고 있는지를 나타낸다. 즉, 일관성이 낮은 응답은 모델이 해당 질문을 잘 이해하지 못했음을 의미한다.
구체적으로, 저자들은 질문 생성 모델을 활용하여 원래 질문과 의미적으로 유사한 질문들을 생성한다. 그리고 검은 상자 모델의 응답이 이 유사 질문들에 대해 일관적인지 확인한다. 일관성이 낮은 경우 해당 응답은 신뢰할 수 없는 것으로 간주한다.
저자들은 이 방법이 모델의 내부 구조에 대한 접근 없이도 효과적으로 작동함을 보였다. 또한 실험을 통해 이 방법이 in-distribution, out-of-distribution, 그리고 adversarial 데이터에서도 효과적임을 확인했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zaid Khan,Yu... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10193.pdfDeeper Inquiries