Core Concepts
최근 대규모 언어 모델의 벤치마크 점수와 실제 성능 간 격차가 발생하면서, 벤치마크 데이터 오염에 대한 우려가 제기되고 있다. 본 연구는 오픈 소스 및 독점 모델에 적용 가능한 두 가지 방법을 제안하여 이 문제를 조사한다.
Abstract
본 연구는 대규모 언어 모델(LLM)의 벤치마크 데이터 오염을 탐지하기 위한 두 가지 방법을 제안한다.
- 정보 검색 기반 접근법:
- The Pile과 C4와 같은 대규모 사전 학습 코퍼스와 MMLU, TruthfulQA 등의 벤치마크 데이터 간 중복을 탐지한다.
- BM25, SacreBLEU, Rouge-L, BLEURT 등의 지표를 사용하여 중복 정도를 측정한다.
- 사람 평가를 통해 자동화된 지표의 신뢰성을 검증한다.
- TS-Guessing 프로토콜:
- 질문 기반 추측과 선다형 문제 기반 추측의 두 가지 설정을 제안한다.
- 질문 기반 추측에서는 핵심 단어를 마스킹하고 모델이 이를 추측하도록 한다.
- 선다형 문제 기반 추측에서는 오답 선택지를 마스킹하고 모델이 이를 추측하도록 한다.
- 이를 통해 모델이 벤치마크 데이터에 노출되었는지 확인할 수 있다.
실험 결과, 일부 상용 LLM이 벤치마크 데이터의 정답 선택지를 정확하게 추측할 수 있음이 확인되었다. 이는 현재 사용되는 벤치마크에 잠재적인 오염이 존재할 수 있음을 시사한다.
Stats
ChatGPT와 GPT-4는 MMLU 벤치마크에서 각각 52%와 57%의 정답 선택지 추측 정확도를 보였다.
TruthfulQA에서 ChatGPT와 GPT-4는 각각 16.24%와 19.29%의 정답 추측 정확도를 보였다.
Quotes
"최근 관찰에 따르면 벤치마크 점수와 실제 LLM 성능 간 격차가 발생하면서, 벤치마크 데이터 오염에 대한 우려가 제기되고 있다."
"본 연구는 오픈 소스 및 독점 모델에 적용 가능한 두 가지 방법을 제안하여 이 문제를 조사한다."