Core Concepts
대규모 언어 모델을 활용하여 데이터 불균형 문제를 해결하는 효과적인 그룹 기반 프롬프팅 방법을 제안합니다.
Abstract
이 연구는 대규모 언어 모델(LLM)을 활용하여 현실적인 합성 테이블 데이터를 생성하는 간단하면서도 효과적인 방법을 소개합니다. 제안하는 방법은 CSV 형식의 그룹 기반 프롬프팅과 랜덤 단어 교체 전략을 활용하여 대상 데이터셋의 요구사항과 특성을 잘 반영하는 데이터를 생성합니다.
실험 결과, 제안 방법은 8개의 실제 공개 데이터셋에서 우수한 성능을 보였으며, 특히 데이터 불균형 문제를 해결하는 데 효과적이었습니다. 또한 특징 간 상관관계를 유지하면서 기존 접근 방식보다 토큰 효율성을 높였습니다. 이는 테이블 데이터 생성 및 클래스 불균형 처리와 같은 주요 기계 학습 과제를 해결하는 데 중요한 기여를 합니다.
Stats
합성 데이터를 추가하면 Travel 데이터셋에서 기계 학습 모델의 민감도가 크게 향상되었습니다.
제안 방법은 Sick 데이터셋에서 기존 방법보다 F1 점수, 민감도, 특이도 등의 지표에서 우수한 성능을 보였습니다.
HELOC 데이터셋에서 제안 방법은 기존 방법보다 더 나은 회귀 성능을 보였습니다.
Quotes
"제안하는 방법은 데이터 불균형 문제를 해결하는 데 효과적이었습니다."
"제안 방법은 특징 간 상관관계를 유지하면서 기존 접근 방식보다 토큰 효율성을 높였습니다."
"이는 테이블 데이터 생성 및 클래스 불균형 처리와 같은 주요 기계 학습 과제를 해결하는 데 중요한 기여를 합니다."