핵심 개념
소량의 테이블 데이터로 학습된 기존 합성 데이터 생성 모델의 한계를 극복하기 위해, 본 연구에서는 대형 언어 모델(LLM) 기반의 새로운 프레임워크인 MALLM-GAN을 제안하며, 이는 적대적 학습을 통해 데이터 생성 프로세스를 최적화하여 개인정보 보호를 유지하면서도 높은 유용성을 가진 합성 데이터를 생성합니다.
초록
MALLM-GAN: 소량의 테이블 데이터 합성을 위한 GAN으로서의 다중 에이전트 대형 언어 모델
본 연구에서는 의료 분야와 같이 데이터 수집이 제한적인 분야에서 소량의 테이블 데이터를 이용하여 높은 유용성을 지닌 합성 데이터를 생성하는 동시에 개인정보를 보호하는 것을 목표로 합니다.
본 연구에서는 대형 언어 모델(LLM)을 기반으로 하는 새로운 프레임워크인 MALLM-GAN을 제안합니다. MALLM-GAN은 GAN(Generative Adversarial Network) 아키텍처를 모방하여 여러 LLM 에이전트(생성기, 판별기, 최적화기)를 활용합니다.
생성기: 소량의 실제 데이터와 인과 관계 그래프를 포함하는 프롬프트를 입력받아 합성 데이터를 생성합니다.
판별기: 생성된 데이터와 실제 데이터를 구별하여 생성기의 성능을 평가합니다.
최적화기: 판별기의 평가 결과를 기반으로 생성기의 프롬프트, 특히 인과 관계 그래프를 개선합니다.