이 논문은 추출적 요약과 추상적 요약을 통합하는 새로운 접근법인 EXTABS를 제안한다. 기존의 추출-추상 방식은 추출기와 추상기를 별도로 학습하여 추출된 핵심 정보를 추상기에 전달하는 방식이었다. 이는 오류 누적과 추가 학습 비용이 발생하는 문제가 있었다.
EXTABS는 단일 인코더-디코더 모델 내에서 추출기와 추상기를 통합하여 학습한다. 인코더는 텍스트 스팬 표현을 학습하고 핵심 정보를 추출하는 역할을 하며, 디코더는 인코더의 출력과 추출된 핵심 정보 마스크를 활용하여 요약문을 생성한다. 이를 통해 오류 누적 문제를 해결하고 추출과 추상 간 시너지 효과를 얻을 수 있다.
실험 결과, EXTABS는 CNN/DailyMail 데이터셋에서 추상적 요약 성능이 기존 모델을 능가하고, Reddit과 PubMed 데이터셋에서 추출적 요약 SOTA 성능을 달성하면서도 추상적 요약 성능을 유지하는 것으로 나타났다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы