이 논문은 CorpusLM이라는 통합 언어 모델을 제안한다. CorpusLM은 외부 코퍼스를 활용하여 다양한 지식 집약적 태스크를 처리한다. 주요 내용은 다음과 같다:
생성적 검색: CorpusLM은 문서 식별자(DocID) 순위 리스트 생성을 통해 검색 성능을 향상시킨다. 동적 제약 생성 기법을 사용하여 유효하고 중복되지 않는 DocID 리스트를 생성한다.
검색 기반 생성: CorpusLM은 DocID, 참조 문서, 최종 답변을 연속적으로 생성하는 전략을 사용한다. 이를 통해 관련성 있는 정보만 효과적으로 활용할 수 있다.
DocID 이해: CorpusLM은 DocID의 의미와 관련성을 이해하기 위한 보조 태스크를 학습한다. 이를 통해 검색과 생성 태스크 간의 관계를 더 잘 이해할 수 있다.
실험 결과, CorpusLM은 다양한 지식 집약적 태스크에서 우수한 성능을 보였다. 특히 검색 및 생성 성능이 기존 모델들을 크게 능가하는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы