Die Autoren präsentieren eine bemerkenswerte Verbesserung des Inference Time Intervention (ITI)-Verfahrens, die zu einer deutlich höheren Generalisierungsfähigkeit führt. Die Verbesserung umfasst zwei Aspekte:
Erhöhung der Kapazität des Sondierungsmodells, was zu einer effizienteren Identifizierung der Aufmerksamkeitsköpfe führt, die den gewünschten Wissenstyp (z.B. Wahrheit) enthalten.
Erweiterung des Token-Kontexts des Interventionsvektors, der verwendet wird, um die Aufmerksamkeitsköpfe zu steuern. Diese Verbesserung basiert auf der Hypothese, dass das wahrheitsgemäße Wissen nicht nur im Vektor des letzten Tokens konzentriert ist, sondern über einen breiteren Kontext verteilt ist.
Die Experimente zeigen, dass die vorgeschlagene NL-ITI-Methode die Leistung auf dem TruthfulQA-Benchmark um etwa 14% in Bezug auf die Baseline-ITI-Ergebnisse verbessert. NL-ITI erzielt auch ermutigende Ergebnisse auf anderen Testsets, wie dem Geschäftsethik-Unterbereich von MMLU, mit einer Verbesserung von etwa 18% gegenüber der Baseline LLaMA-2-7B. Darüber hinaus schneidet NL-ITI besser ab, während es gleichzeitig weniger invasiv in das Verhalten des Großen Sprachmodells ist (gemessen an der Kullback-Leibler-Divergenz).
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések