Core Concepts
Durch die Modellierung der vom Endoskop ausgesendeten und von der Oberfläche reflektierten Beleuchtung können genauere monokulare Tiefenkarten aus Endoskopievideos geschätzt werden.
Abstract
Der Artikel präsentiert einen Ansatz zur monokularen Tiefenschätzung für Endoskopievideos, der die vom Endoskop ausgesendete und von der Oberfläche reflektierte Beleuchtung nutzt.
Zunächst wird eine Per-Pixel-Beleuchtungsdarstellung (PPL) eingeführt, die Informationen über Beleuchtungsrichtung und -abschwächung enthält. Daraus wird eine Per-Pixel-Schattierung (PPS) berechnet, die stark mit dem Intensitätsfeld des Bildes korreliert ist.
Es werden zwei neue Verlustfunktionen vorgestellt: Eine überwachte Verlustfunktion, die die PPS-Darstellung nutzt, um auf synthetischen Daten zu trainieren, und eine selbstüberwachte Verlustfunktion, die die Korrelation zwischen PPS und Bildintensität ausnutzt, um auf unmarkierten klinischen Daten zu trainieren.
Außerdem wird eine Tiefenverfeinerungsarchitektur (PPSNet) entwickelt, die die PPS-Darstellung nutzt, um eine initiale Tiefenschätzung zu verfeinern.
Schließlich wird ein Lehrer-Schüler-Transferlernansatz vorgestellt, bei dem der Lehrer-Netzwerk auf synthetischen und klinischen Daten trainiert wird und den Schüler-Netzwerk bei der Verarbeitung unmarkierter klinischer Daten mit Hilfe der selbstüberwachten Verlustfunktion anleitet.
Die Ergebnisse zeigen, dass der Ansatz den Stand der Technik bei der monokularen Tiefenschätzung für Endoskopievideos übertrifft, sowohl auf synthetischen als auch auf klinischen Datensätzen.
Stats
Die Oberfläche näher zur Kamera und zur Beleuchtung reflektiert mehr Licht als weiter entfernte oder abgewandte Oberflächen.
Die berechnete Per-Pixel-Schattierung (PPS) hat eine durchschnittliche Korrelation von 0,90 mit einer Varianz von 0,03 zum Intensitätsfeld des Bildes auf dem synthetischen C3VD-Datensatz.
Quotes
"Durch die Modellierung der vom Endoskop ausgesendeten und von der Oberfläche reflektierten Beleuchtung können genauere monokulare Tiefenkarten aus Endoskopievideos geschätzt werden."
"Wir zeigen, dass unser Ansatz den Stand der Technik bei der monokularen Tiefenschätzung für Endoskopievideos übertrifft, sowohl auf synthetischen als auch auf klinischen Datensätzen."