Kontrollierte Halluzinationen in multimodalen Modellen durch visuelle Informationsverankerung
Generative multimodale Sprach-Bild-Modelle neigen dazu, plausibel klingende, aber nicht auf dem Eingabebild verankerte textuelle Antworten zu generieren. Dieser Artikel untersucht dieses Phänomen und zeigt, dass es auf einer übermäßigen Abhängigkeit vom Sprachprior beruht. Um Halluzinationen zu reduzieren, wird eine neue Sampling-Methode namens Multi-Modal Mutual-Information Decoding (M3ID) eingeführt, die den Einfluss des Referenzbildes auf den Sprachprior verstärkt.