Core Concepts
복잡한 문장을 의미를 유지하면서 여러 개의 간단한 문장으로 분할하는 Split and Rephrase 작업을 위해 기존 WikiSplit 데이터셋을 개선한 WikiSplit++ 데이터셋을 제안한다.
Abstract
이 논문은 Split and Rephrase 작업을 위한 데이터 개선 방법을 제안한다. Split and Rephrase는 복잡한 문장을 의미를 변경하지 않고 여러 개의 간단한 문장으로 분할하는 작업이다.
먼저, 복잡한 문장과 분할된 간단한 문장 간에 의미가 모순되는 경우를 제거하기 위해 자연어 추론(NLI) 분류기를 사용하여 데이터를 정제한다. 이를 통해 생성된 간단한 문장에서 발생하는 환각을 줄일 수 있다.
다음으로, 간단한 문장의 순서를 역순으로 변경하여 입력 복잡 문장과 출력 간단 문장 간의 유사성을 낮춘다. 이를 통해 모델이 복잡한 문장을 그대로 출력하는 것을 방지할 수 있다.
이렇게 정제된 WikiSplit++ 데이터셋을 사용하여 T5 모델을 학습한 결과, 기존 WikiSplit 데이터셋을 사용한 모델에 비해 간단한 문장 생성 시 환각이 감소하고 문장 분할 수가 증가하는 등 성능이 향상되었다. 또한 다른 데이터셋에 대해서도 유사한 효과를 보였다.
Stats
복잡한 문장과 간단한 문장 간 의미가 모순되는 경우가 많아 이를 제거하면 데이터셋 크기가 약 36.6% 감소한다.
간단한 문장의 순서를 역순으로 변경하면 모델이 복잡한 문장을 그대로 출력하는 것을 방지할 수 있다.
Quotes
"Split and Rephrase, a text simplification task proposed by Narayan et al. (2017), breaks down a complicated sentence into shorter, simpler ones as much as possible without altering the vocabulary or meaning of the complex sentence."
"Although current Split and Rephrase methods have been improved, they still have limitations; they sometimes generate simple sentences with hallucinations and fail to split complex sentences."