핵심 개념
저데이터 환경에서 대형 언어 모델과 문법 정보를 활용하여 소형 모델의 형태소 주석 생성 성능을 크게 향상시킬 수 있다.
초록
이 논문은 저데이터 환경에서 대형 언어 모델(LLM)과 구조화된 문법 정보를 활용하여 소형 모델의 형태소 주석 생성 성능을 향상시키는 방법을 제안한다.
주요 내용은 다음과 같다:
- 소형 토큰 분류 모델(RoBERTa 또는 Bi-LSTM)을 사용하여 초기 형태소 주석을 생성한다.
- 관련 문법 정보 chunk를 검색하고 LLM을 활용하여 초기 주석을 수정 및 보완한다.
- LLM은 각 형태소에 대한 설명과 신뢰도 점수를 제공하여 모델의 해석 가능성을 높인다.
- 검색 모듈과 토큰 분류 모델을 함께 최적화하는 모듈러 RAG 방식을 통해 성능을 더욱 향상시킨다.
실험 결과, 제안 방식은 저데이터 환경의 Uspanteko와 Arapaho 언어에서 기존 최고 성능을 넘어서는 결과를 보였다. 또한 LLM이 제공하는 설명을 통해 모델의 해석 가능성도 크게 향상되었다.
통계
Uspanteko 데이터셋에는 약 11,000개의 문장과 80개의 고유한 형태소 기능 레이블이 있다.
Arapaho 데이터셋은 39,500개의 훈련 문장과 5,000개의 개발 문장으로 구성된다.
Uspanteko 문법 설명은 10페이지 분량의 스페인어 문서이고, Arapaho 문법은 500페이지 분량의 참고 문법서이다.
인용구
"LLM은 본질적으로 데이터에 굶주려 있어, 저데이터 환경에서는 효과적이지 않다."
"RAG 파이프라인은 질문 답변 작업에 잘 정립되어 있으며, 이 논문에서는 LLM이 관련 문법 부분을 검색, 해석, 활용할 수 있는 능력을 탐구한다."
"모델 설명을 통해 사용자가 모델의 예측 근거를 이해할 수 있게 하는 것은 언어 문서화 작업에 매우 중요하다."