Dieser Artikel stellt Xiwu, ein Large Language Model (LLM) vor, das speziell für den Einsatz in der Hochenergiephysik entwickelt wurde. Xiwu zeichnet sich durch zwei Hauptmerkmale aus:
Basis-Flexibilität: Xiwu kann auf verschiedene Grundmodelle wie LLaMA, Vicuna, ChatGLM und Grok-1 aufbauen und so mit der Weiterentwicklung von Open-Source-Modellen Schritt halten.
Lernfähigkeit: Xiwu kann neues Wissen schnell und kostengünstig über ein Just-in-Time-Lernsystem erwerben, das auf einem Vektordatenspeicher basiert. Dadurch kann das Modell dynamisch an sich ändernde Informationen angepasst werden.
Zur Datenbeschaffung wurden verschiedene Methoden eingesetzt, darunter eine "Seed-Fissions-Technologie", um effizient domänenspezifische Frage-Antwort-Paare zu generieren. Insgesamt wurden 26.000 Frage-Antwort-Paare und 750 Millionen Token für das Training von Xiwu gesammelt.
In Evaluationen zeigte Xiwu-13B eine deutlich bessere Leistung als das Vicuna-13B-Basismodell und erreichte etwa 65% der Leistung von ChatGPT-175B bei domänenspezifischen Fragen zur Hochenergiephysik. Darüber hinaus ermöglicht das Just-in-Time-Lernsystem eine kollaborative Weiterentwicklung des Modells durch Experten.
Insgesamt stellt Xiwu den ersten auf die Hochenergiephysik spezialisierten LLM dar und bietet vielversprechende Ansätze für die Anwendung von LLMs in anderen Fachdisziplinen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhengde Zhan... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08001.pdfDeeper Inquiries