이 논문은 정보 검색 모델의 지침 따르기 능력을 평가하고 향상시키는 방법을 제안한다.
먼저, 저자들은 TREC 컨퍼런스에서 사용되는 세 가지 데이터셋(TREC Robust 2004, TREC Common Core 2017, TREC News 2021)을 활용하여 FOLLOWIR 벤치마크를 구축했다. TREC에서는 사람 평가자들에게 문서 관련성을 판단하기 위한 지침(narrative)을 제공하는데, 이를 활용하여 지침 따르기 능력을 평가할 수 있다. 저자들은 이 지침을 약간 수정하고 관련 문서를 다시 평가하여 지침 변화에 따른 모델의 성능 변화를 측정할 수 있는 새로운 평가 프레임워크를 제안했다.
분석 결과, 대부분의 기존 정보 검색 모델은 지침을 제대로 활용하지 못하고 단순 키워드 매칭에 의존하는 것으로 나타났다. 하지만 대규모 언어 모델(3B+ 파라미터) 또는 지침 학습 모델은 지침 따르기 능력이 향상되는 것을 확인했다.
이를 바탕으로 저자들은 지침 따르기 능력을 향상시키기 위한 학습 데이터와 모델(FOLLOWIR-7B)을 제공한다. 실험 결과, FOLLOWIR-7B 모델은 기존 모델 대비 13% 이상의 성능 향상을 보였다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Orion Weller... pada arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15246.pdfPertanyaan yang Lebih Dalam