Kernkonzepte
Die Architekturentwürfe von Eagle (RWKV-5) und Finch (RWKV-6) verbessern die Ausdrucksfähigkeit von RWKV-4 durch den Einsatz von mehrköpfigen Matrix-Zuständen und einen dynamischen Rekurrenzmechanismus, während sie die Effizienz von RNNs beibehalten.
Zusammenfassung
Der Artikel stellt zwei neue RWKV-Architekturen vor - Eagle (RWKV-5) und Finch (RWKV-6) - die auf dem RWKV-4-Modell aufbauen. Die Hauptverbesserungen sind:
- Eagle verwendet mehrköpfige Matrix-Zustände anstelle von Vektor-Zuständen, eine reformulierte Rezeptanz und einen zusätzlichen Gating-Mechanismus, um die Ausdrucksfähigkeit zu erhöhen.
- Finch führt datenabhängige Funktionen für Token-Shift und Time-Mixing ein, um die Flexibilität weiter zu verbessern. Außerdem nutzt Finch Low Rank Adaptation, um die gelernten Zerfallsvektoren kontextabhängig anzupassen.
- Zusätzlich wird ein neuer RWKV World Tokenizer und ein neuer RWKV World v2 Datensatz mit 1,12 Billionen Token vorgestellt, um die Mehrsprachigkeit und den Code-Anteil zu verbessern.
- Die Experimente zeigen, dass Eagle und Finch auf einer Vielzahl von Benchmarks konkurrenzfähig oder sogar besser abschneiden als bestehende Modelle, während sie die Effizienz von RNNs beibehalten.
Statistiken
Die RWKV World v2 Datenmenge umfasst 1,12 Billionen Token.
Die Modelle Eagle 0.4B, Eagle 1.5B, Eagle 3B, Eagle 7B, Finch 1.6B und Finch 3B wurden öffentlich veröffentlicht.
Die Modelle wurden mit 0,46 bis 7,5 Milliarden Parametern trainiert.
Zitate
"Die Architekturentwürfe von Eagle (RWKV-5) und Finch (RWKV-6) verbessern die Ausdrucksfähigkeit von RWKV-4 durch den Einsatz von mehrköpfigen Matrix-Zuständen und einen dynamischen Rekurrenzmechanismus, während sie die Effizienz von RNNs beibehalten."
"Wir haben sechs Apache 2.0 lizenzierte Eagle und Finch Modelle vortrainiert und öffentlich veröffentlicht."