본 논문은 개방형 질문 답변(ODQA) 문제에서 긴 문맥 정보를 효과적으로 활용하는 방법을 제안한다. 기존 언어 모델은 입력 길이 제한으로 인해 긴 문맥 정보를 충분히 활용하기 어려운 문제가 있다.
저자들은 작은 규모의 인코더 모델과 교차 주의 메커니즘을 활용하여 이 문제를 해결한다. 인코더 모델은 긴 문맥 정보를 압축하여 기존 언어 모델에 제공하고, 교차 주의 메커니즘을 통해 언어 모델이 이 정보를 효과적으로 활용할 수 있도록 한다.
실험 결과, 제안 방법을 적용하면 기존 모델 대비 2개의 보유 데이터셋, 4개의 외부 데이터셋, 2개의 in-context learning 설정에서 성능이 향상되었다. 또한 계산 자원 요구사항도 기존과 유사한 수준을 유지하면서 실행 시간도 경쟁력 있는 수준을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Zhuo Chen,Xi... ב- arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02022.pdfשאלות מעמיקות