المفاهيم الأساسية
비일상적이고 예상치 못한 상황에 대해 그 상황을 더 그럴듯하게 만드는 자연어 설명을 생성하는 능력을 평가하는 과제
الملخص
이 논문은 비일상적이고 예상치 못한 상황에 대한 가설 추론 능력을 평가하는 새로운 벤치마크 데이터셋 UNCOMMONSENSE를 소개합니다. 기존의 상식 추론 벤치마크들이 일상적인 상황에 초점을 맞춘 것과 달리, UNCOMMONSENSE는 비일상적이고 예상치 못한 상황에 대한 가설 추론 능력을 평가합니다.
데이터셋 수집 과정:
기존 상식 추론 데이터셋(SocialIQA, ROCStories)에서 비일상적인 결과를 선별하여 수집
크라우드소싱을 통해 이러한 비일상적인 결과를 설명하는 자연어 설명을 수집
데이터 분석:
인간 평가자와 최고 성능의 대형 언어 모델(GPT-4) 간 성능 차이 분석
모델 향상 인간 작성 설명이 가장 높은 품질을 보이며, 구체성과 다양성 간 균형을 이루는 것으로 나타남
모델 실험:
온라인 모방 학습 알고리즘을 활용하여 공개 가능한 언어 모델의 성능 향상
기존 감독 학습 대비 약 10% 높은 성능 향상
الإحصائيات
비일상적인 결과에 대한 설명을 생성하기 위해서는 상황과 결과 사이의 연결고리를 충분히 설명해야 함
예를 들어, "Cameron은 처음으로 초밥을 먹어보고 정말 싫어했지만, 그래도 더 먹고 싶어 했다."라는 설명은 비일상적인 결과를 그럴듯하게 만듦
اقتباسات
"비일상적이고 예상치 못한 상황에 대한 가설 추론 능력은 언어 기술이 사건의 역학을 정확하게 모델링하기 위해 필수적이다."
"기존 상식 추론 벤치마크는 일상적이고 일반적인 상황에 대한 추론에 초점을 맞추고 있지만, 우리는 비일상적이고 예상치 못한 상황에 대한 추론 능력을 평가하고자 한다."