ROUTERBENCH wurde entwickelt, um die Leistung von Routing-Systemen für Große Sprachmodelle (LLMs) systematisch zu bewerten. Es umfasst eine Vielzahl von Aufgaben und Domänen, darunter Allgemeinwissen, Sprachverständnis, Konversation, Mathematik, Programmierung und retrievalgestützte Generierung.
Der Benchmark-Datensatz wurde durch Inferenz mit 14 verschiedenen LLMs, darunter sowohl Open-Source- als auch proprietäre Modelle, erstellt. Insgesamt umfasst ROUTERBENCH 405.467 Samples, die 11 Modelle, 8 Datensätze und 64 Aufgaben abdecken.
Die Autoren stellen einen theoretischen Rahmen vor, um die Effizienz von Routern anhand von Kosten und Leistung zu bewerten. Experimente mit verschiedenen Routing-Ansätzen zeigen, dass einfache Routing-Algorithmen in einigen Bereichen eine hervorragende Leistung erzielen können, während in anderen Fällen noch Verbesserungspotenzial besteht.
ROUTERBENCH soll den Fortschritt im Bereich der effizienten und kostengünstigen Bereitstellung Großer Sprachmodelle fördern, indem es einen standardisierten Bewertungsrahmen bietet.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Qitian Jason... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.12031.pdfاستفسارات أعمق