Grunnleggende konsepter
본 논문에서는 8192 토큰까지 처리 가능한 새로운 다국어 텍스트 인코더를 제시하고, 이를 기반으로 효율적인 텍스트 검색을 위한 표현 모델(TRM)과 재순위 모델을 구축하여, 기존 모델 대비 향상된 성능과 효율성을 보여줍니다.
Sammendrag
mGTE: 다국어 텍스트 검색을 위한 일반화된 장문 텍스트 표현 및 재순위 모델
본 연구는 장문 다국어 텍스트 검색을 위한 효율적이고 효과적인 텍스트 표현 모델(TRM) 및 재순위 모델을 구축하는 것을 목표로 합니다.
8192 토큰 컨텍스트를 위한 다국어 텍스트 인코더: RoPE 및 언패딩을 활용하여 BERT 아키텍처를 개선하고, 8192 토큰 컨텍스트를 위해 2단계 커리큘럼(MLM-2048, MLM-8192)으로 마스크 언어 모델링(MLM)을 통해 사전 학습했습니다.
대조 학습 기반 하이브리드 TRM:
대조 사전 학습: [CLS] 토큰의 인코더 출력을 사용하여 밀집 표현을 생성하고 코사인 유사도를 통해 관련성 점수를 계산합니다. 질문-답변 쌍, 제목-내용 쌍, 번역 쌍 등의 데이터셋을 사용하여 모델을 학습했습니다.
마트료시카 임베딩: 다양한 차원의 하위 벡터를 사용하여 인덱스 저장 공간을 줄이고 검색 속도를 높입니다.
희소 표현: TRM에서 예측된 용어/토큰 가중치를 사용하여 희소 벡터를 생성합니다.
대조 미세 조정: 마트료시카 임베딩과 희소 표현을 다중 작업 학습을 통해 TRM을 구축합니다.
Cross-Encoder 기반 재순위 모델: 쿼리와 문서를 함께 입력으로 받아 [CLS] 출력 상태를 통해 관련성 점수를 예측합니다. 사전 학습된 8k 컨텍스트 텍스트 인코더 모델을 기반으로 InfoNCE를 사용하여 미세 조정했습니다.