이 연구는 대규모 언어 모델(LLM)을 활용하여 생성한 합성 데이터의 벤치마킹 효과를 분석하였다. 6개의 데이터셋과 3가지 자연어 처리 작업(의도 분류, 문장 유사도, 개체명 인식)을 대상으로 실험을 진행하였다.
실험 결과, 합성 데이터는 단순한 의도 분류 작업에서는 실제 데이터와 유사한 성능을 보였지만, 개체명 인식과 같은 복잡한 작업에서는 그렇지 않았다. 이는 작업의 복잡도에 따라 합성 데이터의 대표성이 달라짐을 보여준다.
또한 연구진은 편향 요인(bias factor)이라는 새로운 지표를 제안하였다. 이 지표는 동일한 LLM을 데이터 생성과 작업 수행에 모두 사용할 때 발생할 수 있는 편향을 측정한다. 실험 결과, 작은 모델일수록 자신이 생성한 데이터에 대한 편향성이 더 크게 나타났다.
종합적으로 이 연구는 합성 데이터의 벤치마킹 효과가 작업의 복잡도에 따라 달라짐을 보여주며, 다양한 LLM으로 생성한 데이터를 평균하면 더 강건하고 대표적인 벤치마크를 얻을 수 있음을 시사한다. 또한 모델 크기에 따른 편향성 차이를 확인하였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы