본 논문은 개방형 질문 답변(ODQA) 문제에서 긴 문맥 정보를 효과적으로 활용하는 방법을 제안한다. 기존 언어 모델은 입력 길이 제한으로 인해 긴 문맥 정보를 충분히 활용하기 어려운 문제가 있다.
저자들은 작은 규모의 인코더 모델과 교차 주의 메커니즘을 활용하여 이 문제를 해결한다. 인코더 모델은 긴 문맥 정보를 압축하여 기존 언어 모델에 제공하고, 교차 주의 메커니즘을 통해 언어 모델이 이 정보를 효과적으로 활용할 수 있도록 한다.
실험 결과, 제안 방법을 적용하면 기존 모델 대비 2개의 보유 데이터셋, 4개의 외부 데이터셋, 2개의 in-context learning 설정에서 성능이 향상되었다. 또한 계산 자원 요구사항도 기존과 유사한 수준을 유지하면서 실행 시간도 경쟁력 있는 수준을 보였다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Zhuo Chen,Xi... um arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02022.pdfTiefere Fragen