核心概念
본 연구는 병렬 코퍼스 없이도 어휘 단순화를 수행할 수 있는 새로운 방법을 제안한다. 이를 위해 어드버서리얼 편집 시스템과 난이도 인식 채우기 모듈을 활용하여 복잡한 단어를 단순한 단어로 대체한다.
摘要
본 연구는 어휘 단순화(Lexical Simplification, LS) 작업을 위한 새로운 방법인 LAE-LS(LLM-Enhanced Adversarial Editing System for Lexical Simplification)를 제안한다. LAE-LS는 두 가지 모듈로 구성된다:
-
어드버서리얼 편집 모듈: 이 모듈은 혼란 손실, 불변성 손실, LLM 강화 손실을 통해 어휘 편집을 수행한다. 이를 통해 복잡한 단어를 식별하고 원문의 의미를 유지하면서 단순화를 달성한다.
-
난이도 인식 채우기 모듈: 이 모듈은 원문 문장과 어휘 편집 결과를 결합하여 복잡한 단어를 마스킹하고, 마스크된 위치에 더 단순한 단어를 채워 넣는다.
실험 결과, LAE-LS는 3개의 벤치마크 LS 데이터셋에서 우수한 성능을 보였으며, 매개변수 수가 훨씬 작은 상태에서도 GPT-3.5-turbo와 경쟁할 수 있는 수준의 결과를 달성했다. 이는 LLM의 지식을 효과적으로 증류하여 소규모 LS 시스템을 강화할 수 있음을 보여준다.
统计
복잡한 문장 "A committee of the institute appoints the laureates for the Nobel Prize in Physiology or Medicine."
단순화된 문장 "A committee of the institute appoints the honorees for the Nobel Prize in Physiology or Medicine."
引用
"To be specific, we encode them with a sequence of hidden representations and then predict the edit labels via a Multilayer Perceptron (MLP)."
"Remarkably, unlike the previous filling model (Qiang et al., 2021), the Difficulty-aware Filling module, which is a cloze model, not only considers original sentences as clues but also maintains an awareness of producing simpler words."