Core Concepts
문장 바꾸기는 다양한 하위 작업으로 구성되며, 이들 작업의 특성과 요구사항이 다르므로 일반적인 문장 바꾸기 데이터셋을 사용하면 부적절한 결과를 초래할 수 있다.
Abstract
이 논문은 문장 바꾸기와 관련된 다양한 하위 작업을 정리하고 분류하는 새로운 분류 체계를 제안한다. 문장 바꾸기 작업은 크게 의미적으로 동등한 문장 바꾸기와 유사한 문장 바꾸기로 구분된다. 전자에는 교정, 응집성 향상, 문장 압축/확장, 데이터 증강, 적대적 예제 생성 등이 포함되고, 후자에는 문맥 변경, 긍정적 재해석, 지역화 등이 포함된다.
이 분류 체계를 바탕으로 5개의 하위 작업에 대한 데이터셋을 구축하고 자동 분류기를 개발하였다. 그 결과, 일반적인 문장 바꾸기 데이터셋에는 특정 하위 작업에 편향된 문장 쌍이 많이 포함되어 있음을 확인하였다. 이는 데이터셋의 특성을 고려하지 않고 문장 바꾸기 모델을 평가하면 부정확한 결과를 초래할 수 있음을 시사한다.
Stats
문장 바꾸기 작업은 다양한 하위 작업으로 구성되며, 각 작업의 특성과 요구사항이 다르다.
일반적인 문장 바꾸기 데이터셋에는 특정 하위 작업에 편향된 문장 쌍이 많이 포함되어 있다.
데이터셋의 특성을 고려하지 않고 문장 바꾸기 모델을 평가하면 부정확한 결과를 초래할 수 있다.