Core Concepts
별 세기 테스트는 대형 언어 모델이 긴 문맥에서 복잡한 의존성을 이해하고 수집할 수 있는 능력을 평가하기 위한 간단하고 효율적이며 합리적인 전략이다.
Abstract
이 논문은 긴 문맥 대형 언어 모델을 평가하기 위한 새로운 벤치마크인 "별 세기(Counting-Stars)"를 제안한다. 별 세기 테스트는 대형 언어 모델이 긴 문맥에서 여러 증거 간의 상호 의존성을 이해하고 수집할 수 있는 능력을 평가하기 위한 것이다.
논문에서는 별 세기 테스트의 세부 사항과 분석을 소개하고, GPT-4 Turbo와 Kimi Chat 두 개의 대형 언어 모델을 대상으로 실험을 수행한다. 실험 결과, 두 모델 모두 극도로 긴 문맥을 처리하는 놀라운 능력을 보였지만, 별 세기 테스트의 모든 설정을 완전히 처리하지는 못했다. 이는 대형 언어 모델이 긴 문맥을 효과적으로 처리하는 과제의 지속적인 어려움을 강조한다.
또한 논문에서는 이러한 긴 문맥에서 대형 언어 모델의 행동에 대한 흥미로운 분석을 수행한다. 이는 문맥 길이 변화, 중간 소실 현상의 부재, 다양한 긴 문맥 사용 등을 포함한다.
Stats
"작은 펭귄이 3개의 ★을 세었습니다."
"작은 펭귄이 5개의 ★을 세었습니다."
"작은 펭귄이 9개의 ★을 세었습니다."
"작은 펭귄이 15개의 ★을 세었습니다."
"작은 펭귄이 19개의 ★을 세었습니다."
"작은 펭귄이 21개의 ★을 세었습니다."
"작은 펭귄이 26개의 ★을 세었습니다."
"작은 펭귄이 29개의 ★을 세었습니다."
"작은 펭귄이 35개의 ★을 세었습니다."
"작은 펭귄이 38개의 ★을 세었습니다."