최근 대규모 언어 모델의 벤치마크 점수와 실제 성능 간 격차가 발생하면서, 벤치마크 데이터 오염에 대한 우려가 제기되고 있다. 본 연구는 오픈 소스 및 독점 모델에 적용 가능한 두 가지 방법을 제안하여 이 문제를 조사한다.