ROUTERBENCH wurde entwickelt, um die Leistung von Routing-Systemen für Große Sprachmodelle (LLMs) systematisch zu bewerten. Es umfasst eine Vielzahl von Aufgaben und Domänen, darunter Allgemeinwissen, Sprachverständnis, Konversation, Mathematik, Programmierung und retrievalgestützte Generierung.
Der Benchmark-Datensatz wurde durch Inferenz mit 14 verschiedenen LLMs, darunter sowohl Open-Source- als auch proprietäre Modelle, erstellt. Insgesamt umfasst ROUTERBENCH 405.467 Samples, die 11 Modelle, 8 Datensätze und 64 Aufgaben abdecken.
Die Autoren stellen einen theoretischen Rahmen vor, um die Effizienz von Routern anhand von Kosten und Leistung zu bewerten. Experimente mit verschiedenen Routing-Ansätzen zeigen, dass einfache Routing-Algorithmen in einigen Bereichen eine hervorragende Leistung erzielen können, während in anderen Fällen noch Verbesserungspotenzial besteht.
ROUTERBENCH soll den Fortschritt im Bereich der effizienten und kostengünstigen Bereitstellung Großer Sprachmodelle fördern, indem es einen standardisierten Bewertungsrahmen bietet.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Qitian Jason... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12031.pdfConsultas más profundas