제한된 인적 자원을 활용하여 대규모 언어 모델의 성능을 효과적으로 평가하는 방법을 제안한다. 최대 불일치 경쟁 기반의 자동화된 샘플 선택 메커니즘을 통해 모델 간 차이를 극대화하는 최소한의 샘플을 선별하고, 이를 바탕으로 인간 평가를 수행하여 모델의 상대적 순위를 도출한다.
UltraEval은 경량, 포괄성, 모듈성, 효율성을 특징으로 하는 사용자 친화적인 평가 프레임워크로, 모델, 데이터, 메트릭을 자유롭게 조합하여 대규모 언어 모델의 종합적인 능력을 평가할 수 있다.
자동 평가기의 편향을 줄이기 위해 길이 요인을 통제하는 회귀 분석 기반의 간단한 접근법을 제안한다.
BEAR는 마스크 언어 모델과 인과 언어 모델 모두에 적용 가능한 관계적 지식 프로빙 방법론이다. 기존 접근법의 한계를 극복하고 균형 잡힌 데이터셋을 구축하여 언어 모델의 관계적 지식을 효과적으로 평가할 수 있다.
PROBELM 벤치마크는 언어 모델의 세계 지식을 활용하여 더 개연성 있는 시나리오를 식별하는 능력을 평가한다.
대형 언어 모델은 종종 잘못되거나 허구적인 응답을 생성하므로, 특정 입력에 대한 모델의 불확실성을 정확하게 정량화하는 것이 중요하다. 본 연구는 언어 모델의 불확실성 및 신뢰도 측정을 위한 새로운 평가 프레임워크인 순위 보정을 제안한다.
LLM의 창의적 사고 능력을 평가하기 위해 다양한 프롬프팅 방법을 활용하여 SemEval-2024 Task 9에 참여했으며, 이를 통해 LLM의 창의적 사고 능력을 향상시킬 수 있는 방법을 제시하였다.
보조 과제 요구사항이 작은 언어 모델의 능력을 가릴 수 있다.
대형 언어 모델은 심리측정 도구를 통해 일관성 있는 응답을 생성하지 못하며, 이는 모델의 내재적 특성을 정확하게 측정하기 어려움을 시사한다.
대화형 언어 모델의 지시 따르기 능력을 verbalizer 조작을 통해 체계적으로 평가할 수 있다.