핵심 개념
이 논문은 데이터에서 자연어 생성(D2T)에 대한 최신 혁신을 종합적으로 살펴보고, 이 분야의 접근법, 벤치마크 데이터셋, 평가 프로토콜을 구조화하여 분석한다. 또한 D2T 연구의 유망한 방향을 강조하여, 언어적 능력뿐만 아니라 공정성과 책임성을 갖춘 시스템 개발에 초점을 맞춘다.
초록
이 논문은 데이터에서 자연어 생성(D2T) 분야의 최신 혁신을 종합적으로 살펴본다.
데이터셋 부분에서는 의미 표현(MR), 그래프 표현, 테이블 표현 등 다양한 형태의 데이터셋을 소개하고 분석한다. 데이터 수집 및 증강 기법도 함께 다룬다.
기술적 측면에서는 seq2seq 프레임워크를 기반으로 한 다양한 혁신을 소개한다. 엔티티 인코더, 계층적 인코더, 계획 인코더 및 오토인코더, 그래프 인코더, 재구성 및 계층적 디코더, 정규화 기법, 강화학습 등 seq2seq 모델의 개선 방향을 상세히 다룬다.
또한 데이터 충실도 문제인 환각과 누락에 대한 접근법도 소개한다. 이를 위해 모델 아키텍처 및 손실 함수 측면의 혁신을 설명한다.
마지막으로 D2T 연구의 유망한 방향을 제시하며, 언어적 능력뿐만 아니라 공정성과 책임성을 갖춘 시스템 개발의 중요성을 강조한다.
통계
데이터셋 크기는 최대 1.5백만 개의 인스턴스에 달한다.
데이터셋의 총 토큰 수는 최대 169백만 개에 이른다.
다국어 데이터셋(영어, 러시아어)도 존재한다.
인용구
"A picture is worth a thousand words - isn't it? And hence graphical representation is by its nature universally superior to text - isn't it?"
"Often, the interplay of these paradigms brings out the best of both."