Der Artikel präsentiert einen neuen Ansatz namens DGMamba, um die Generalisierungsfähigkeit von Zustandsraummodellen (SSM) wie Mamba auf unbekannte Domänen zu verbessern.
Zunächst wird das Problem der domänenspezifischen Informationen in den versteckten Zuständen von SSM-basierten Modellen wie Mamba adressiert. Dafür wird eine Hidden State Suppressing (HSS) Strategie eingeführt, um den Einfluss domänenspezifischer Merkmale während der Ausgabevorhersage zu reduzieren.
Darüber hinaus wird eine Semantic-aware Patch Refining (SPR) Komponente vorgeschlagen, um das Modell dazu zu bringen, sich mehr auf Objekte als auf den Kontext zu konzentrieren. SPR besteht aus zwei Teilen:
Die umfangreichen Experimente auf vier gängigen Benchmarks für domänenübergreifende Generalisierung zeigen, dass der vorgeschlagene DGMamba-Ansatz deutlich bessere Ergebnisse als der Stand der Technik erzielt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shaocong Lon... a las arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07794.pdfConsultas más profundas