Główne pojęcia
본 연구는 대규모 언어 모델(LLM)이 해결 불가능한 문제에 직면했을 때 불확실성을 인지하고 "모른다"라고 답할 수 있는지를 평가하여 AGI의 가능성을 탐구하는 새로운 접근 방식을 제시합니다.
Streszczenie
불가능한 시험을 통한 AGI 평가: LLM의 불확실성 인식 능력 조사
본 연구 논문은 675개의 해결 불가능한 문제들로 구성된 데이터 세트를 활용하여 대규모 언어 모델(LLM)의 불확실성 인식 능력을 평가하는 새로운 프레임워크를 제시합니다. 저자들은 이러한 "불가능한 시험"을 통해 현재 LLM의 한계점을 드러내고, 진정한 인공 일반 지능(AGI)을 향한 평가 기준을 제시하고자 합니다.
본 연구는 LLM이 해결 불가능하거나 모호한 문제에 직면했을 때, 잘못된 답변을 생성하는 대신 스스로의 지식 한계를 인지하고 "모른다"라고 답할 수 있는지를 평가하는 것을 목표로 합니다.
저자들은 다양한 분야에서 수집한 675개의 해결 불가능한 문제들을 담은 데이터 세트를 구축했습니다. 각 문제는 객관적인 평가를 위해 4개의 오답과 1개의 "모른다"라는 정답으로 구성된 객관식 문제 형태로 제시되었습니다. 이후, Anthropic의 Claude, OpenAI의 GPT 시리즈, Google의 Gemini 등 다양한 LLM을 사용하여 해당 데이터 세트에 대한 답변을 수집하고 분석했습니다.