이 논문은 다국어 구조 예측 작업에서 레이블 투영 문제를 다룬다. 레이블 투영은 기계 번역을 활용하여 소스 언어의 레이블과 텍스트를 함께 번역하는 것을 의미한다. 기존 연구에서는 번역 정확도를 희생하여 단순화된 레이블 번역을 수행하거나 단어 수준 정렬에만 의존하는 방식을 사용했다.
본 연구에서는 CLaP(Contextual Label Projection)이라는 새로운 레이블 투영 방법을 제안한다. CLaP은 먼저 기계 번역기를 사용하여 입력 문장을 번역한 후, 번역된 문장을 문맥으로 활용하여 레이블을 번역한다. 이를 통해 번역된 레이블의 정확도를 높이면서도 번역된 문장과의 연관성을 유지할 수 있다.
CLaP은 다국어 능력을 가진 지시 기반 언어 모델을 활용하여 문맥 기반 번역을 수행한다. 이때 번역된 문장 내에 번역된 레이블이 포함되도록 지시 프롬프트를 제공한다.
실험 결과, CLaP은 39개 언어에 걸쳐 사건 인자 추출 과제에서 2.4 F1 점수, 개체명 인식 과제에서 1.4 F1 점수 향상을 보였다. 또한 10개의 극저자원 언어에서도 우수한 성능을 보였다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies