核心概念
提出了一种名为RouterDC的查询驱动路由器框架,通过双重对比学习来有效地组装多个大型语言模型。
要約
本文研究了如何训练一个路由器来组装多个大型语言模型(LLM)。提出了一种名为RouterDC的方法,它由一个编码器和可学习的LLM嵌入组成。RouterDC使用两种对比学习损失来训练路由器:
-
样本-LLM对比损失:根据每个查询的LLM得分,选择表现最好和最差的LLM,并将查询嵌入拉近前者,推远后者。这可以让路由器平等地选择多个表现最好的LLM。
-
样本-样本对比损失:将训练查询聚类,并最大化同一簇内查询的相似性,最小化不同簇查询的相似性。这有助于提高训练的稳定性。
实验结果表明,RouterDC在在分布和分布外任务上都显著优于单个顶级LLM以及现有的路由方法。RouterDC在参数和计算效率方面也很出色。
統計
在GSM8K数据集上,MetaMath-Mistral-7B和dolphin-2.9-llama3-8b的得分分别为69.63%和69.81%,是最高的。
在MMLU数据集上,Meta-Llama-3-8B的得分为64.59%,是最高的。
在CMMLU数据集上,dolphin-2.9-llama3-8b的得分为51.77%,是最高的。
在ARC-C数据集上,zephyr-7b-beta的得分为57.95%,是最高的。
在HumanEval数据集上,dolphin-2.6-mistral-7b的得分为45.10%,是最高的。
引用
"RouterDC是参数高效(少于100M参数)和计算高效(无需通过LLM反向传播梯度)的。此外,RouterDC在推理时也很高效(比Voting快6倍),因为它只需要计算所选LLM的开销,而路由器的开销可以忽略不计。"
"实验结果表明,RouterDC有效地组装了LLM,并在在分布和分布外任务上都显著优于单个顶级LLM以及现有的路由方法。"