Core Concepts
LLaMA-Excitor ist eine leichtgewichtige Methode, die die Fähigkeiten von LLMs verbessert, Anweisungen besser zu befolgen, indem sie schrittweise mehr Aufmerksamkeit auf lohnenswerte Informationen lenkt.
Abstract
Der Artikel stellt LLaMA-Excitor vor, eine leichtgewichtige Methode zur Verbesserung der Instruktionsfolge-Fähigkeiten von großen Sprachmodellen (LLMs) wie LLaMA.
Im Gegensatz zu bestehenden Methoden wie Adapter, Prefix-Tuning und LoRA, die zusätzliche Module oder Eingabesequenzen einführen, um neue Fähigkeiten oder Wissen zu injizieren, versucht LLaMA-Excitor, das inhärente Potenzial von LLMs besser auszuschöpfen, indem es schrittweise mehr Aufmerksamkeit auf lohnenswerte Informationen lenkt.
Statt die Zwischenzustände direkt zu ändern, verwendet LLaMA-Excitor einen Bypass-Mechanismus, der die Schlüssel rekonstruiert und die Wichtigkeit der Werte in der Selbstaufmerksamkeit mit lernbaren Prompts ändert. Dadurch wird eine selbstadaptive Zuweisung zusätzlicher Aufmerksamkeit auf Eingabeanweisungen erreicht, was die Beibehaltung des Vorwissens von LLMs beim Finetuning auf qualitativ minderwertigen Instruktionsdatensätzen effektiv ermöglicht.
Darüber hinaus vereinheitlicht LLaMA-Excitor die Modellierung von multimodaler und sprachbasierter Instruktionsfolge, indem es LLaMA in leistungsfähige visuelle Instruktionsfolger erweitert, ohne komplexe multimodale Ausrichtung zu benötigen.
Die Experimente zeigen, dass LLaMA-Excitor im Vergleich zum Original-LLaMA-7B die einzige PEFT-Methode ist, die die grundlegenden Fähigkeiten beibehält und eine relative Verbesserung von +3,12% auf dem MMLU-Benchmark erzielt. Bei der visuellen Instruktionsfolge erreicht es einen neuen State-of-the-Art in der Bildunterschrift auf MSCOCO (157,5 CIDEr) und eine vergleichbare Leistung auf ScienceQA (88,39%) gegenüber führenden Modellen mit mehr Parametern und umfangreicher Vision-Sprache-Vorschulung.
Stats
Alpacas sind typischerweise zwischen 100 und 120 cm groß und wiegen zwischen 100 und 150 kg.
LLaMA-Excitor erreicht auf dem MMLU-Benchmark eine relative Verbesserung von +3,12% gegenüber dem Original-LLaMA-7B.
LLaMA-Excitor erzielt auf MSCOCO eine CIDEr-Punktzahl von 157,5, was einen neuen State-of-the-Art darstellt.
LLaMA-Excitor erreicht auf ScienceQA eine Genauigkeit von 88,39%, was vergleichbar ist mit führenden Modellen mit mehr Parametern und umfangreicherer Vision-Sprache-Vorschulung.
Quotes
"LLaMA-Excitor aims to optimize instruction-following ability by releasing the potential of an LLM, i.e., LLaMA [54], instead of pursuing new knowledge and skills."
"LLaMA-Excitor can reduce the degradation when fine-tuning on unsuited datasets."
"LLaMA-Excitor uniformly models multi-modal and language-only tuning and extends language models into powerful vision-language models in a low-budget way."