본 논문에서는 희소하거나 복잡한 데이터 환경에서 효과적인 학습을 위해 특수 데이터 합성, 특히 악의적인 네트워크 트래픽 데이터 생성에 시퀀스 모델을 활용하는 방법을 제시합니다.
대규모 언어 모델(LLM)을 사용하여 개인 맞춤형 커뮤니티 질의응답 시스템 학습에 효과적인 합성 데이터를 생성할 수 있으며, 이는 기존 인간 작성 데이터를 대체할 가능성을 제시한다.
zGAN은 이상치 생성에 중점을 둔 새로운 GAN 아키텍처로, 현실적인 합성 테이블 데이터를 생성하여 데이터 부족 및 모델 성능 향상에 기여합니다.
CK4Gen은 실제 환자 데이터에서 중요한 임상 특징을 보존하는 합성 생존 데이터 세트를 생성하여 의료 연구 및 교육에서 실제 데이터 접근 제한으로 인한 문제를 해결합니다.
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 특정 작업에 유용한 합성 텍스트 데이터를 생성하는 새로운 프레임워크인 SoftSRV를 제시합니다. SoftSRV는 사람이 작성한 하드 프롬프트 템플릿을 사용하는 기존 방식과 달리 데이터 기반 학습을 통해 소프트 프롬프트를 생성하고, 이를 통해 LLM을 특정 작업에 맞게 조정하여 더욱 효과적이고 다양한 합성 데이터를 생성합니다.
본 연구는 사이버 보안, 특히 침입 탐지 시스템(IDS)에서 합성 데이터 생성 기술의 효과를 비교 분석하여 GAN 기반 방법(특히 CTGAN 및 CopulaGAN)이 다른 방법보다 우수한 성능을 보인다는 것을 입증하고, 사이버 보안 데이터 생성에 대한 지침을 제시합니다.
HS3F (이종 순차적 특징 포레스트 플로우)는 기존 테이블 데이터 생성 모델인 Forest Flow의 단점을 개선하여, 범주형 변수 처리 방식을 개선하고 순차적 특징 생성을 통해 노이즈에 대한 강건성을 높여 더 빠르고 효율적인 테이블 데이터 생성을 가능하게 한다.
본 논문에서는 실제 전력 소비 패턴을 정확하게 나타낼 수 있는 합성 주거용 부하 데이터를 생성하는 데 효과적인 프레임워크인 ERGAN(Ensemble Recurrent Generative Adversarial Network)을 제안합니다.
인공지능 모델 학습에 사용되는 합성 데이터의 질을 향상시키기 위해, 학생 모델의 학습 선호도를 반영하여 교사 모델을 최적화하는 Montessori-Instruct 프레임워크를 제안합니다.
본 논문에서는 개인정보를 보호하면서도 실제 데이터의 유용성을 유지하는 합성 GPS 궤적 데이터 생성 알고리즘인 FDASynthesis를 제안합니다.