Khái niệm cốt lõi
본 논문에서는 8192 토큰까지 처리 가능한 새로운 다국어 텍스트 인코더를 제시하고, 이를 기반으로 효율적인 텍스트 검색을 위한 표현 모델(TRM)과 재순위 모델을 구축하여, 기존 모델 대비 향상된 성능과 효율성을 보여줍니다.
Tóm tắt
mGTE: 다국어 텍스트 검색을 위한 일반화된 장문 텍스트 표현 및 재순위 모델
본 연구는 장문 다국어 텍스트 검색을 위한 효율적이고 효과적인 텍스트 표현 모델(TRM) 및 재순위 모델을 구축하는 것을 목표로 합니다.
8192 토큰 컨텍스트를 위한 다국어 텍스트 인코더: RoPE 및 언패딩을 활용하여 BERT 아키텍처를 개선하고, 8192 토큰 컨텍스트를 위해 2단계 커리큘럼(MLM-2048, MLM-8192)으로 마스크 언어 모델링(MLM)을 통해 사전 학습했습니다.
대조 학습 기반 하이브리드 TRM:
대조 사전 학습: [CLS] 토큰의 인코더 출력을 사용하여 밀집 표현을 생성하고 코사인 유사도를 통해 관련성 점수를 계산합니다. 질문-답변 쌍, 제목-내용 쌍, 번역 쌍 등의 데이터셋을 사용하여 모델을 학습했습니다.
마트료시카 임베딩: 다양한 차원의 하위 벡터를 사용하여 인덱스 저장 공간을 줄이고 검색 속도를 높입니다.
희소 표현: TRM에서 예측된 용어/토큰 가중치를 사용하여 희소 벡터를 생성합니다.
대조 미세 조정: 마트료시카 임베딩과 희소 표현을 다중 작업 학습을 통해 TRM을 구축합니다.
Cross-Encoder 기반 재순위 모델: 쿼리와 문서를 함께 입력으로 받아 [CLS] 출력 상태를 통해 관련성 점수를 예측합니다. 사전 학습된 8k 컨텍스트 텍스트 인코더 모델을 기반으로 InfoNCE를 사용하여 미세 조정했습니다.