Core Concepts
C-Pack은 일반 중국어 텍스트 임베딩 분야를 크게 발전시키는 리소스 패키지입니다.
Abstract
C-Pack은 일반 중국어 텍스트 임베딩을 위한 4가지 핵심 리소스를 제공합니다:
C-MTEB: 중국어 텍스트 임베딩을 종합적으로 평가할 수 있는 벤치마크로, 6가지 과제와 35개 데이터셋을 포함하고 있습니다.
C-MTP: 100M 개의 텍스트 쌍으로 구성된 대규모 중국어 텍스트 임베딩 학습 데이터셋입니다. 웹 코퍼스와 고품질 레이블 데이터를 통합하여 구축되었습니다.
BGE: 다양한 크기의 중국어 텍스트 임베딩 모델들로 구성된 모델 제품군입니다. 이 모델들은 C-MTEB에서 기존 모델들을 10% 이상 능가하는 성능을 보입니다.
학습 레시피: 텍스트 임베딩 모델 학습을 위한 최적화된 방법론을 제공합니다. 이를 통해 사용자들은 BGE 모델을 재현하고 지속적으로 개선할 수 있습니다.
C-Pack은 중국어 텍스트 임베딩의 개발, 평가, 응용을 위한 종합적인 솔루션을 제공하여 이 분야의 발전에 기여합니다.
Stats
100M개의 중국어 텍스트 쌍으로 구성된 C-MTP 데이터셋은 현재 공개된 가장 큰 규모의 중국어 텍스트 임베딩 학습 데이터셋입니다.
C-MTP 데이터셋은 웹 코퍼스와 고품질 레이블 데이터를 통합하여 구축되었습니다.
Quotes
"C-Pack은 일반 중국어 텍스트 임베딩 분야를 크게 발전시키는 종합적인 리소스 패키지입니다."
"BGE 모델 시리즈는 현재 가장 인기 있는 임베딩 모델 중 하나로, 2023년 8월 출시 이후 2,000만 회 이상 다운로드되었습니다."