Der Artikel stellt LONGHEADS, einen neuartigen, trainingsfreien Rahmen zur effizienten Verarbeitung langer Kontexte in vortrainierten Sprachmodellen (LLMs), vor. LONGHEADS nutzt die inhärenten Fähigkeiten der Multi-Head-Aufmerksamkeit, um lange Texte intelligent in relevante Abschnitte zu unterteilen und diese den einzelnen Aufmerksamkeitsköpfen zuzuweisen. Dadurch können die Aufmerksamkeitsköpfe die wichtigen Kontextinformationen effektiv verarbeiten, ohne den Kontext über die Vortrainingsgrenze hinaus erweitern zu müssen.
Die Kernidee von LONGHEADS ist es, das Potenzial der Multi-Head-Aufmerksamkeit voll auszuschöpfen. Anstatt jeden Kopf den gesamten Satz aufmerksam verarbeiten zu lassen, was zu Problemen mit Verteilungsverschiebungen führen kann, lässt LONGHEADS jeden Kopf selektiv auf relevante Kontextabschnitte innerhalb der Vortrainungslänge fokussieren. Dazu wird eine Chunk-Auswahlstrategie vorgeschlagen, die auf der inhärenten Korrelation zwischen Abfrage- und Schlüsseldarstellungen basiert.
LONGHEADS erzielt auf verschiedenen Benchmarks, einschließlich Sprachmodellierung, synthetischer Abrufaufgabe und Langkontext-Benchmark, Spitzenergebnisse. Insbesondere erreicht LONGHEADS bei der Passkey-Abrufaufgabe über alle Kontextlängen hinweg fast 100% Genauigkeit, ohne zusätzliches Training. Im Vergleich zu Methoden mit eingeschränkter Aufmerksamkeit übertrifft LONGHEADS diese deutlich, und im Vergleich zu Methoden mit voller Aufmerksamkeit erreicht es vergleichbare oder sogar bessere Ergebnisse bei deutlich geringerem Rechenaufwand.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések