이 논문은 과제 특화 데이터가 부족한 상황에서 데이터 생성 문제를 다룹니다. 최근 연구에서는 대규모 언어 모델을 활용한 프롬프트 기반 합성 데이터 생성 방법이 제안되었지만, 이렇게 생성된 데이터는 복잡성과 다양성이 부족한 경향이 있습니다.
이 논문에서는 DataTune이라는 새로운 방법을 제안합니다. DataTune은 기존 공개 데이터셋을 검색하고 변형하여 특정 과제의 요구사항에 맞는 합성 데이터를 생성합니다. 데이터 변형 과정에서 데이터셋의 다양성과 복잡성을 유지하면서도 과제 요구사항을 충족시킬 수 있습니다.
BIG-Bench 벤치마크의 6개 언어 기반 과제에 대한 실험 결과, DataTune은 프롬프트 기반 기준 모델 대비 평균 5.2점 향상을 보였습니다. 또한 기존 합성 데이터 생성 방법과 결합하면 평균 8점의 추가 성능 향상을 달성할 수 있었습니다. 데이터 변형을 통해 생성된 데이터는 더 다양하고 어려운 예제를 포함하고 있으며, 소규모 샘플에서 데이터의 정확성도 유지되는 것으로 관찰되었습니다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Saumya Gandh... о arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.14361.pdfГлибші Запити