Control-DAG는 어휘, 어휘집, 길이 제약 조건을 동시에 제공하여 비자동회귀 텍스트 생성의 주요 한계를 해결한다.
신경망 기반 표에서 텍스트 생성 모델의 사실적 오류는 입력 데이터의 문제에서 기인하며, 이를 해결하면 오류를 크게 줄일 수 있다.
이 논문은 데이터에서 자연어 생성(D2T)에 대한 최신 혁신을 종합적으로 살펴보고, 이 분야의 접근법, 벤치마크 데이터셋, 평가 프로토콜을 구조화하여 분석한다. 또한 D2T 연구의 유망한 방향을 강조하여, 언어적 능력뿐만 아니라 공정성과 책임성을 갖춘 시스템 개발에 초점을 맞춘다.
적은 데이터 환경에서 테이블 데이터와 텍스트 간의 구조적 차이를 해결하기 위해 도메인 특화 지식을 활용하여 모델의 성능을 향상시킨다.
VOLTA 프레임워크는 Transformer 모델과 VAE, InfoGAN 기술을 결합하여 자연어 생성의 다양성을 향상시킨다. 이를 통해 기존 모델들의 한계를 극복하고 생성 품질을 유지하면서도 다양한 출력을 생성할 수 있다.
NLG 시스템이 생성하는 유창하지만 부정확한 출력(hallucination)을 탐지하는 것이 이 공동 과제의 핵심 목표이다.