Core Concepts
코드 언어 모델의 성능 평가 시 데이터 오염 문제가 발생할 수 있으며, 최근 데이터 사용, 새로운 데이터 큐레이션, 코드 리팩토링 등의 대응책이 제안되었지만 그 효과가 명확하지 않다.
Abstract
이 연구는 코드 언어 모델의 데이터 오염 문제에 대한 대응책의 효과를 체계적으로 분석하였다.
- 최근 데이터 사용(RQ1):
- 최근 데이터(모델 출시 이후 생성된 데이터)에서 모델 성능이 오히려 더 좋게 나타났다. 이는 데이터 오염 문제를 완화하는 데 효과적이지 않을 수 있음을 시사한다.
- AI 프로그래밍 보조 도구의 확산이 데이터 오염 문제를 더 악화시킬 수 있다.
- 큐레이션 데이터 사용(RQ2):
- 큐레이션된 데이터셋(HumanEval, CoderEval)에서 모델 성능이 오염된 데이터보다 더 좋게 나타났다.
- 이는 큐레이션 데이터가 데이터 오염 문제를 완화하는 데 효과적이지 않을 수 있음을 시사한다.
- 코드 리팩토링(RQ3):
- 구문적 리팩토링 기법은 모델 성능에 일관된 영향을 미치지 않았다.
- 의미적 리팩토링 기법(변수명 변경, 매개변수 추가)은 모델 성능을 저하시켰다.
- 따라서 코드 구조 변경보다는 의미적 변경이 데이터 오염 문제 완화에 더 효과적일 수 있다.
- 기존 지표(RQ4):
- 퍼플렉서티, Zlib 압축 엔트로피, MIN-K% PROB 등의 기존 지표는 오염된 데이터와 정제된 데이터를 구분하는 데 효과적이지 않았다.
종합적으로, 현재 제안된 대응책들이 코드 언어 모델의 데이터 오염 문제를 완화하는 데 효과적이지 않을 수 있음을 시사한다. 의미적 리팩토링 기법 등 새로운 접근이 필요할 것으로 보인다.
Stats
코드 그룹 간 평균 복잡도 차이는 크지 않다.
코드 그룹 간 유사도는 상대적으로 낮은 수준이다.