Core Concepts
C-Pack提供了一个全面的资源包,包括大规模的训练数据C-MTP、全面的评测基准C-MTEB以及性能优秀的预训练模型BGE,大幅推进了中文文本嵌入的发展。
Abstract
C-Pack是一个全面的资源包,旨在推进中文文本嵌入的发展。它包含以下关键资源:
C-MTEB是一个全面的中文文本嵌入评测基准,涵盖6种主要任务和35个数据集,是目前最全面的中文文本嵌入评测基准。
C-MTP是一个大规模的中文文本对训练数据集,由海量无标签语料和高质量标注数据整合而成。其前所未有的规模、多样性和质量为文本嵌入模型的优秀泛化能力奠定了基础。
BGE是一系列性能优秀的中文文本嵌入模型,包括不同规模的选择,可以灵活地平衡效率和性能。这些模型不仅可以直接使用,还可以进一步微调以获得更好的下游性能。
此外,C-Pack还提供了完整的训练配方,包括预训练、对比学习和任务特定微调等关键步骤,大大方便了社区用户的复现和进一步改进。
总的来说,C-Pack为中文文本嵌入的应用和未来发展奠定了坚实的基础。它已经得到了广泛的认可和应用,成为中文文本嵌入领域的重要资源。
Stats
我们的中文数据集C-MTP包含100M对文本,是目前最大规模的公开中文文本对数据集。
我们的英文数据集也包含200M对文本,是目前最大规模的公开英文文本对数据集。
Quotes
"C-Pack提供了一个全面的资源包,包括大规模的训练数据C-MTP、全面的评测基准C-MTEB以及性能优秀的预训练模型BGE,大幅推进了中文文本嵌入的发展。"
"BGE模型系列自2023年8月发布以来,已经在HuggingFace上获得了超过2000万次下载,成为全球最受欢迎的嵌入模型之一。"