Die Studie präsentiert eine Methode zur effizienten und skalierbaren multimodalen Fusion, die als "Mischung von Prompt-Experten" (MoPE) bezeichnet wird.
Zunächst wird der herkömmliche globale Prompt in statische, dynamische und gemappte Prompts unterteilt, um die Adaptivität zu erhöhen. Anschließend wird die MoPE-Technik eingeführt, bei der mehrere Prompt-Experten und ein multimodaler Router verwendet werden, um die Ausdrucksstärke des Prompt-Tunings zu steigern. Der multimodale Router nutzt die Darstellung der komplementären Modalität, um für jede Instanz den effektivsten dynamischen Prompt auszuwählen.
Die Experimente auf drei multimodalen Datensätzen zeigen, dass die vorgeschlagene Methode den aktuellen Stand der Technik übertrifft und gleichzeitig deutlich parametereffizient ist. Darüber hinaus skaliert die Methode besser mit der Datenmenge und der Anzahl der Trainingsparameter als herkömmliche Prompt-basierte Methoden. Schließlich wird gezeigt, dass die Verwendung eines Regularisierungsterms die Spezialisierung der Experten fördert und zu einer hohen Interpretierbarkeit führt.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문