Der Artikel präsentiert einen neuen Ansatz namens DGMamba, um die Generalisierungsfähigkeit von Zustandsraummodellen (SSM) wie Mamba auf unbekannte Domänen zu verbessern.
Zunächst wird das Problem der domänenspezifischen Informationen in den versteckten Zuständen von SSM-basierten Modellen wie Mamba adressiert. Dafür wird eine Hidden State Suppressing (HSS) Strategie eingeführt, um den Einfluss domänenspezifischer Merkmale während der Ausgabevorhersage zu reduzieren.
Darüber hinaus wird eine Semantic-aware Patch Refining (SPR) Komponente vorgeschlagen, um das Modell dazu zu bringen, sich mehr auf Objekte als auf den Kontext zu konzentrieren. SPR besteht aus zwei Teilen:
Die umfangreichen Experimente auf vier gängigen Benchmarks für domänenübergreifende Generalisierung zeigen, dass der vorgeschlagene DGMamba-Ansatz deutlich bessere Ergebnisse als der Stand der Technik erzielt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shaocong Lon... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07794.pdfDeeper Inquiries