Core Concepts
FLASK는 언어 모델의 정렬 능력을 세부적으로 평가하는 프로토콜로, 기존의 단일 지표 기반 평가의 한계를 극복하고 모델의 다양한 능력을 종합적으로 분석할 수 있다.
Abstract
FLASK(Fine-grained Language Model Evaluation based on Alignment Skill Sets)는 언어 모델의 정렬 능력을 세부적으로 평가하기 위한 프로토콜이다. 기존의 언어 모델 평가는 단일 지표 기반으로 이루어져 왔는데, 이는 모델의 다양한 능력을 종합적으로 평가하기 어렵다는 한계가 있었다.
FLASK는 4가지 주요 능력(논리적 사고, 배경 지식, 문제 해결, 사용자 정렬)을 12개의 세부 기술로 정의하고, 각 기술에 대한 평가 기준을 마련하였다. 이를 통해 언어 모델의 성능을 세부적으로 분석할 수 있다.
FLASK 평가 데이터셋은 1,740개의 인스턴스로 구성되며, 각 인스턴스에 대해 필요한 기술, 도메인, 난이도 수준을 주석화하였다. 평가 과정에서는 인간 평가자 또는 최신 언어 모델을 활용하여 각 기술에 대한 점수를 부여한다.
실험 결과, FLASK를 통한 세부적인 평가가 모델-인간 간 상관관계를 높이고 모델 기반 평가의 견고성을 향상시키는 것으로 나타났다. 또한 FLASK를 통해 오픈소스 모델과 독점 모델의 성능 차이, 모델 규모에 따른 기술 습득 양상 등을 분석할 수 있었다. FLASK는 모델 개발자와 실무자 모두에게 유용한 통찰을 제공할 것으로 기대된다.
Stats
프롬프트 기반 언어 모델의 논리적 정확성은 모델 규모가 증가할수록 크게 향상된다.
오픈소스 모델은 독점 모델에 비해 논리적 사고와 배경 지식 능력이 크게 부족하다.
독점 모델도 FLASK-HARD 데이터셋에서 상당한 성능 저하를 보인다.
Quotes
"FLASK는 언어 모델의 정렬 능력을 세부적으로 평가하기 위한 프로토콜이다."
"FLASK를 통해 오픈소스 모델과 독점 모델의 성능 차이, 모델 규모에 따른 기술 습득 양상 등을 분석할 수 있었다."