Ein mehrstufiges Vision-Sprache-Modell, das pathologische Läsionen in medizinischen Bildern ohne Annotationen präzise lokalisieren kann.