Core Concepts
LLM이 특정 국가에 효과적으로 배치되려면 해당 국가의 문화와 기본 지식에 대한 이해가 필요하다. 이를 위해 KorNAT은 LLM의 사회 가치 정렬과 일반 상식 정렬을 측정한다.
Abstract
이 논문은 LLM의 국가 정렬을 측정하는 KorNAT 벤치마크를 소개한다. 국가 정렬은 LLM이 특정 국가의 사회 가치와 일반 상식을 얼마나 잘 이해하고 있는지를 평가한다.
사회 가치 정렬 데이터셋:
6,174명의 한국 참여자를 대상으로 한 대규모 설문조사를 통해 구축
한국의 시사적인 사회 문제를 다루는 4,000개의 다지선다형 문항 포함
일반 상식 정렬 데이터셋:
한국 교과서와 GED 참고 자료를 바탕으로 구축
7개 과목(국어, 사회, 한국사, 상식, 수학, 과학, 영어)의 6,000개 다지선다형 문항 포함
실험 결과, 대부분의 LLM이 한국 사회 가치와 일반 상식에 충분히 정렬되지 않은 것으로 나타났다. 이는 LLM의 국가 정렬 향상을 위한 여지가 있음을 시사한다.
KorNAT은 한국 정부 산하 기관인 TTA의 엄격한 평가를 거쳐 승인되었다. 이 데이터셋은 2024년 6월 공개 리더보드 출시와 12월 AI 허브 공개를 계획하고 있다.
Stats
한국 국민의 19.96%가 60세 이상이지만, 설문 참여자 중 60세 이상은 11.47%에 불과했다.
설문 참여자 중 남성은 49.5%, 여성은 50.5%였다.
Quotes
"LLM이 특정 국가에 효과적으로 배치되려면 해당 국가의 문화와 기본 지식에 대한 이해가 필요하다."
"KorNAT은 LLM의 사회 가치 정렬과 일반 상식 정렬을 측정한다."
"실험 결과, 대부분의 LLM이 한국 사회 가치와 일반 상식에 충분히 정렬되지 않은 것으로 나타났다."