Die Autoren präsentieren eine bemerkenswerte Verbesserung des Inference Time Intervention (ITI)-Verfahrens, die zu einer deutlich höheren Generalisierungsfähigkeit führt. Die Verbesserung umfasst zwei Aspekte:
Erhöhung der Kapazität des Sondierungsmodells, was zu einer effizienteren Identifizierung der Aufmerksamkeitsköpfe führt, die den gewünschten Wissenstyp (z.B. Wahrheit) enthalten.
Erweiterung des Token-Kontexts des Interventionsvektors, der verwendet wird, um die Aufmerksamkeitsköpfe zu steuern. Diese Verbesserung basiert auf der Hypothese, dass das wahrheitsgemäße Wissen nicht nur im Vektor des letzten Tokens konzentriert ist, sondern über einen breiteren Kontext verteilt ist.
Die Experimente zeigen, dass die vorgeschlagene NL-ITI-Methode die Leistung auf dem TruthfulQA-Benchmark um etwa 14% in Bezug auf die Baseline-ITI-Ergebnisse verbessert. NL-ITI erzielt auch ermutigende Ergebnisse auf anderen Testsets, wie dem Geschäftsethik-Unterbereich von MMLU, mit einer Verbesserung von etwa 18% gegenüber der Baseline LLaMA-2-7B. Darüber hinaus schneidet NL-ITI besser ab, während es gleichzeitig weniger invasiv in das Verhalten des Großen Sprachmodells ist (gemessen an der Kullback-Leibler-Divergenz).
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Jakub Hoscil... klokken arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18680.pdfDypere Spørsmål