Unser Modell verbessert die Effektivität des Masked Image Modeling (MIM) durch semantische Verbesserungen und tiefgreifende Einbindung von Text.