Основні поняття
고품질 도메인 특화 데이터를 활용하여 대규모 언어 모델의 전문 분야 성능을 향상시키면서도 일반화 능력을 유지할 수 있다.
Анотація
이 논문은 대규모 언어 모델(LLM)의 도메인 특화 성능 향상을 위한 고품질 데이터 생성 방법을 제안한다. 주요 내용은 다음과 같다:
- 두 단계의 프롬프트 진화 방법을 통해 도메인 특화 정보, 역할, 과제 지시 등이 포함된 복잡하고 풍부한 프롬프트를 생성한다.
- 프롬프트, 입력, 타겟 등 다차원적인 데이터 품질 평가 지표를 활용하여 데이터 품질을 종합적으로 평가하는 체계를 제안한다.
- 도메인 특화 데이터로만 모델을 fine-tuning 해도 일반화 능력이 유지되는 것을 확인했다. 기존 연구와 달리 도메인 성능 향상 시 일반 성능 저하가 발생하지 않는다.
실험 결과, 제안 방법으로 생성한 고품질 데이터로 fine-tuning한 모델이 도메인 특화 성능을 크게 향상시키면서도 일반 성능을 유지할 수 있음을 보였다.
Статистика
대화 시나리오에는 부동산 중개인과 잠재 구매자 간의 대화가 포함된다.
중개인은 고객의 요구사항을 지속적으로 파악하고, 이에 맞는 부동산을 추천하여 고객의 신뢰를 얻고 연락처를 확보하며 오프라인 방문을 예약한다.
대화 내용에는 고객의 요구사항, 중개인의 추천, 거래 진행 과정 등이 포함된다.
Цитати
"도메인 특화 LLM의 일반화 능력 유지는 중요한 과제이다. 도메인 성능 향상 시 일반 성능 저하가 발생하지 않도록 해야 한다."
"고품질 도메인 데이터는 모델의 도메인 특화 성능을 크게 향상시키면서도 일반 성능을 유지할 수 있다."