핵심 개념
익명의 군중 소싱 플랫폼 BingJian을 통해 대규모 언어 모델의 일반적인 능력과 개인화된 능력을 종합적으로 평가하고자 한다.
초록
이 논문은 대규모 언어 모델(LLM)의 능력을 종합적으로 평가하기 위한 BingJian 플랫폼을 소개한다. BingJian은 중앙집중식 평가와 분산식 평가를 모두 지원하여 LLM의 일반적인 능력과 개인화된 능력을 평가한다.
중앙집중식 평가에서는 다양한 분야의 문제 은행을 활용하여 LLM의 일반 지식 습득 능력을 평가한다. 사용자는 익명으로 모델의 답변을 비교하고 평가할 수 있다.
분산식 평가에서는 사용자가 직접 질문을 입력할 수 있어 모델의 개방형 질문 처리 능력을 평가할 수 있다.
BingJian은 ELO 레이팅 시스템을 활용하여 모델의 상대적인 능력을 동적으로 평가한다. 또한 사용자 프로필 정보를 수집하여 모델의 응답과 사용자 특성의 상관관계를 분석한다. 이를 통해 개인화된 AI 서비스 개발을 위한 기반을 마련한다.
통계
LLM의 일반 지식 습득 능력을 평가하기 위해 자연과학, 인문학, 경제학 등 다양한 분야의 객관식 문제를 활용한다.
사용자는 모델의 답변을 비교하여 "JUST AS GOOD", "A IS BETTER", "B IS BETTER", "JUST AS BAD" 중 하나를 선택하고, 모델의 생성 능력을 1점에서 5점 사이로 평가한다.
인용구
"전통적인 객관적 평가 방식[4]은 LLM의 전체적인 능력을 포착하는 데 한계가 있다. 인간 군중 소싱 평가를 도입함으로써 가장 진정한 형태의 인간 피드백을 제공할 수 있다."
"개인화된 정보를 활용하여 인간과 LLM 간의 인지적 관계를 탐구함으로써 평가 결과에 대한 더 포괄적인 이해를 제공할 수 있다."