Core Concepts
Große Sprachmodelle können als glaubwürdige Referenzwerkzeuge für technische Telekommunikationsdokumente dienen und haben daher Potenzial für verschiedene Anwendungen von Fehlerbehebung und Wartung bis hin zu Netzwerkbetrieb und Softwareentwicklung.
Abstract
Die Studie untersucht die Fähigkeiten und Grenzen aktueller Großer Sprachmodelle (LLMs) als Frage-Antwort-Assistenten für den Telekommunikationsbereich. Um Nutzern den schnelleren Zugriff auf relevante Informationen aus den immer umfangreicheren 3GPP-Spezifikationen zu ermöglichen, wird die Plattform TelcoGenAI vorgestellt, die den Zugriff auf verschiedene LLMs ermöglicht.
Darüber hinaus wird TeleRoBERTa, ein extraktives Frage-Antwort-LLM, eingeführt und seine Leistung mit den state-of-the-art generativen Frage-Antwort-LLMs wie GPT 3.5-Turbo verglichen. Für den Vergleich wird TeleQuAD, ein Benchmark mit Frage-Antwort-Paaren basierend auf 3GPP-Standardinhalten, verwendet. Es werden zwei Arten von Metriken zur Messung der Genauigkeit der produzierten Antworten verwendet: BERTScore und GPT-4 Ref.
Die Ergebnisse zeigen nicht nur, dass TeleRoBERTa mit den state-of-the-art Basis-LLMs, die eine Größenordnung mehr Parameter haben, Schritt hält, sondern auch, dass die Genauigkeit konsistent hoch genug ist, damit diese LLMs als glaubwürdige digitale Assistenten für die Referenzierung von 3GPP-Standards verwendet werden können. Die Ergebnisse zeigen auch, dass durch Vorverarbeitung des Prompt-Kontexts und Verwendung von Supervised Fine-Tuning die Genauigkeit weiter verbessert werden kann.
Die Etablierung eines Basissatzes von LLMs, die bei der 3GPP-Spezifikations-Frage-Antwort gut abschneiden, eröffnet viele interessante Anwendungen, von Felddienstoperationen wie Fehlerbehebung, Inbetriebnahme und Aufrüstung von Funkbasisstationen bis hin zum Kundenvorfall-Management in einem Network Operations Center (NOC).
Stats
Die Anzahl der Token (Wörter) in den 3GPP-Releases hat zwischen Release 8 (2006-01-23) und Release 17 (2018-06-15) deutlich zugenommen.
Die Leistung des feingejusteten und richtig kontextualisierten Llama 2 7B-Modells liegt etwa 16% über der Baseline des unveränderten Llama 2 7B-Modells.
Die Leistung des feingejusteten Llama 2 7B-Modells ist vergleichbar mit der des Baseline-Modells Llama 2 13B.
Quotes
"Große Sprachmodelle können als glaubwürdige Referenzwerkzeuge für technische Telekommunikationsdokumente dienen und haben daher Potenzial für verschiedene Anwendungen von Fehlerbehebung und Wartung bis hin zu Netzwerkbetrieb und Softwareentwicklung."
"Die Ergebnisse zeigen nicht nur, dass TeleRoBERTa mit den state-of-the-art Basis-LLMs, die eine Größenordnung mehr Parameter haben, Schritt hält, sondern auch, dass die Genauigkeit konsistent hoch genug ist, damit diese LLMs als glaubwürdige digitale Assistenten für die Referenzierung von 3GPP-Standards verwendet werden können."