Concepts de base
ROUTERBENCH ist ein neuartiger Bewertungsrahmen, der die Leistungsfähigkeit von LLM-Routing-Systemen systematisch bewertet. Das Benchmark-Tool umfasst einen umfangreichen Datensatz mit über 405.000 Inferenz-Ergebnissen repräsentativer LLMs, um die Entwicklung von Routing-Strategien zu unterstützen.
Résumé
ROUTERBENCH wurde entwickelt, um die Leistung von Routing-Systemen für Große Sprachmodelle (LLMs) systematisch zu bewerten. Es umfasst eine Vielzahl von Aufgaben und Domänen, darunter Allgemeinwissen, Sprachverständnis, Konversation, Mathematik, Programmierung und retrievalgestützte Generierung.
Der Benchmark-Datensatz wurde durch Inferenz mit 14 verschiedenen LLMs, darunter sowohl Open-Source- als auch proprietäre Modelle, erstellt. Insgesamt umfasst ROUTERBENCH 405.467 Samples, die 11 Modelle, 8 Datensätze und 64 Aufgaben abdecken.
Die Autoren stellen einen theoretischen Rahmen vor, um die Effizienz von Routern anhand von Kosten und Leistung zu bewerten. Experimente mit verschiedenen Routing-Ansätzen zeigen, dass einfache Routing-Algorithmen in einigen Bereichen eine hervorragende Leistung erzielen können, während in anderen Fällen noch Verbesserungspotenzial besteht.
ROUTERBENCH soll den Fortschritt im Bereich der effizienten und kostengünstigen Bereitstellung Großer Sprachmodelle fördern, indem es einen standardisierten Bewertungsrahmen bietet.
Stats
"Die Auswahl der Modelle reicht von den kostengünstigen Modellen WizardLM-13B und Mistral-7B bis hin zu den leistungsstarken, aber teureren Modellen wie GPT-4."
"Trotz der Überlegenheit von Modellen wie GPT-4 zeigen die Ergebnisse, dass es kostengünstigere Alternativen gibt, die in vielen Fällen ähnlich gute Ergebnisse liefern können."
"Der Oracle-Router, der immer das beste Modell auswählt, erreicht eine nahezu optimale Leistung bei geringen Kosten, was das Potenzial für effizientes Routing zwischen LLMs hervorhebt."
Citations
"ROUTERBENCH not only formalizes and advances the development of LLM routing systems but also sets a standard for their assessment, paving the way for more accessible and economically viable LLM deployments."
"Our experiments revealed that while some previous routing mechanisms have difficulty generalizing to complex tasks and up-to-date models, there are several promising fields on which even simple routing demonstrated outstanding performance."