이 논문은 다양한 독자층이 문서 이해에 어려움을 겪는 문제를 다룬다. 이러한 독자층에는 언어 학습자, 아동, 인지 장애인, 읽기 능력이 낮은 사람들이 포함된다. 이를 해결하기 위해 전문 편집자가 텍스트를 수동으로 간소화하는 방법이 있지만, 이는 비용이 많이 들고 방대한 양의 텍스트에 적용하기 어렵다. 자동 텍스트 간소화(ATS)는 이를 해결할 수 있는 대안이 될 수 있다.
ATS의 하위 작업인 자동 어휘 간소화(LS)는 복잡한 단어를 더 쉬운 단어로 대체하는 것을 목표로 한다. LS를 위해서는 복잡한 단어 식별(CWI)과 대체어 생성(SG) 등의 하위 작업이 필요하다. 또한 어휘 복잡성 예측(LCP)은 단어의 복잡성 정도를 예측하는 작업이다.
이 논문에서는 스페인어와 카탈로니아어를 위한 새로운 LS 및 LCP 데이터셋인 MultiLS-SP/CA를 소개한다. MultiLS-SP는 스페인어 단어의 이해 난이도에 대한 척도 평가를 포함하는 최초의 데이터셋이다. 또한 이 데이터셋을 사용한 실험 결과를 제공하여 향후 연구의 기준선으로 활용할 수 있게 한다.
Іншою мовою
із вихідного контенту
arxiv.org
Глибші Запити