Die Studie präsentiert ein neuartiges Sehen-Sprache-Modell namens AFLoc, das in der Lage ist, pathologische Läsionen in Röntgenbildern des Brustkorbs präzise zu lokalisieren, ohne auf aufwendige Annotationen angewiesen zu sein.
AFLoc nutzt ein mehrstufiges kontrastives Lernverfahren, um Bild- und Textmerkmale auf verschiedenen Granularitätsebenen (Wort-, Satz- und Berichtsebene) miteinander in Einklang zu bringen. Dadurch kann das Modell die komplexen medizinischen Konzepte in Berichten umfassend mit den Bildeigenschaften in Beziehung setzen, ohne auf manuelle Annotationen angewiesen zu sein.
Die Leistungsfähigkeit von AFLoc wurde in umfangreichen Experimenten auf vier unabhängigen Datensätzen mit 11 verschiedenen Brustpathologien nachgewiesen. AFLoc übertraf dabei sechs führende Methoden aus dem Stand der Technik und erreichte sogar eine bessere Leistung als menschliche Experten bei der Lokalisierung von fünf Pathologien. Darüber hinaus konnte die Übertragbarkeit des Modells auf die Lokalisierung von Pathologien in Retinafundusbildern gezeigt werden.
Die Ergebnisse unterstreichen die Vielseitigkeit und Eignung von AFLoc für den Einsatz in komplexen klinischen Umgebungen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Hao Yang,Hon... في arxiv.org 03-19-2024
https://arxiv.org/pdf/2401.02044.pdfاستفسارات أعمق