本文研究了如何训练一个路由器来组装多个大型语言模型(LLM)。提出了一种名为RouterDC的方法,它由一个编码器和可学习的LLM嵌入组成。RouterDC使用两种对比学习损失来训练路由器:
样本-LLM对比损失:根据每个查询的LLM得分,选择表现最好和最差的LLM,并将查询嵌入拉近前者,推远后者。这可以让路由器平等地选择多个表现最好的LLM。
样本-样本对比损失:将训练查询聚类,并最大化同一簇内查询的相似性,最小化不同簇查询的相似性。这有助于提高训练的稳定性。
实验结果表明,RouterDC在在分布和分布外任务上都显著优于单个顶级LLM以及现有的路由方法。RouterDC在参数和计算效率方面也很出色。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Shuhao Chen,... às arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19886.pdfPerguntas Mais Profundas