이 논문은 추출형 오픈 도메인 질문 답변 과제에서 문맥의 품질과 양이 Fusion-in-Decoder (FiD) 모델의 학습에 미치는 영향을 분석하였다.
실험 결과, FiD 모델은 학습 시 문맥의 품질에 과적합되어 다른 문맥 품질에서 성능이 저하되는 것을 확인하였다. 반면, 문맥의 양은 상대적으로 적은 영향을 미치는 것으로 나타났다.
더 자세히 살펴보면, 낮은 문맥 품질로 학습된 FiD 모델은 관련 문단에 더 선택적으로 주의를 기울이는 반면, 높은 문맥 품질로 학습된 모델은 문단 간 주의 분포가 더 균일한 경향을 보였다. 이러한 차이가 문맥 품질에 대한 과적합의 한 요인으로 분석되었다.
이를 바탕으로 저자들은 크로스 어텐션 분포의 선택성을 조절하는 방법을 제안하였고, 이를 통해 학습된 모델의 성능을 향상시킬 수 있음을 보였다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Kosuke Akimo... klo arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14197.pdfSyvällisempiä Kysymyksiä