Core Concepts
단순화된 텍스트에 대해 언어 모델들이 일관되지 않은 예측을 보이며, 이는 심각한 문제로 이어질 수 있다.
Abstract
이 연구는 사전 학습된 언어 모델들이 원문과 단순화된 버전의 텍스트에 대해 일관된 행동을 보이는지 조사했다. 11개의 사전 학습된 모델을 사용하여 6개의 데이터셋(3개 언어)에서 다양한 분류 작업을 수행했다.
연구 결과, 모든 언어와 모델에서 심각한 불일치가 발견되었다. 단순화된 입력은 최대 50%의 성공률로 제로 반복 모델 무관 적대적 공격에 악용될 수 있다.
단순화된 텍스트에 대한 언어 모델의 일관성 부족은 심각한 문제로, 이는 즉시 해결되어야 한다. 단순화된 언어 데이터의 부족이 주요 원인으로 보이며, 이를 개선하기 위한 노력이 필요하다.
Stats
단순화 수준이 높아질수록 모델의 예측 변화율이 증가한다.
영어 모델의 예측 변화율이 가장 높다(최대 50%).
단어 대체 단순화 작업이 가장 큰 영향을 미친다.
Quotes
"단순화된 입력은 최대 50%의 성공률로 제로 반복 모델 무관 적대적 공격에 악용될 수 있다."
"단순화된 텍스트에 대한 언어 모델의 일관성 부족은 심각한 문제로, 이는 즉시 해결되어야 한다."