핵심 개념
상식 지식과 참조 지식의 구분은 모호하며, 많은 상식 추론 벤치마크 데이터셋에 상식이 아닌 지식이 상당 부분 포함되어 있어 대규모 언어 모델의 진정한 상식 추론 능력 측정을 저해할 수 있다.
초록
상식 지식과 참조 지식 구분의 중요성
본 연구 논문은 자연어 처리, 특히 상식 추론 벤치마크 데이터셋의 신뢰성에 대한 비판적인 분석을 제시합니다. 저자들은 상식 지식과 다른 유형의 지식(참조 지식)을 명확하게 구분하지 않아 많은 데이터셋에 상식이 아닌 지식이 상당 부분 포함되어 있다고 주장합니다.
본 연구는 상식 지식과 참조 지식을 구분하는 명확한 기준을 제시하고, 이를 바탕으로 기존 상식 추론 벤치마크 데이터셋을 분석하여 실제 상식 지식을 요구하는 비율을 조사하고, 대규모 언어 모델의 상식 추론 능력을 정확하게 평가하는 것을 목표로 합니다.
상식 지식 정의: 저자들은 기존 연구들을 분석하여 상식 지식과 참조 지식을 구분하는 다양한 특징들을 제시하고, 이를 바탕으로 통합적인 정의를 제시합니다.
데이터셋 분석: CommonsenseQA 및 CommonsenseQA 2.0 데이터셋을 대상으로 제시된 정의를 기반으로 각 인스턴스의 지식 유형(상식 또는 참조)을 분류하고, 각 유형의 비율을 계산합니다.
LLM 성능 평가: Gemini-Pro, ChatGPT, LLaMa2-7B, Mixtral-8x7B 등의 대규모 언어 모델을 사용하여 상식 지식과 참조 지식으로 분류된 하위 데이터셋에서의 성능(정확도)을 비교 분석합니다.