Core Concepts
Das vorgeschlagene G-HANet-Modell kann effektiv histo-genomische Zusammenhänge aus paarweisen Daten destillieren und diese Erkenntnisse nutzen, um die Leistung der uni-modalen WSI-basierten Inferenz für die Krebsprognose zu verbessern.
Abstract
Die Studie präsentiert einen neuartigen Ansatz namens G-HANet, der in der Lage ist, histo-genomisches Wissen während des Trainings effektiv zu destillieren, um die uni-modale Whole-Slide-Image (WSI)-basierte Inferenz für die Krebsprognose zu verbessern.
G-HANet besteht aus zwei Hauptkomponenten:
Cross-modale Assoziationskomponente (CAB):
Rekonstruiert funktionale Gene aus WSIs, um die Zusammenhänge zwischen Genotypen und Phänotypen zu erfassen.
Generiert merkmalsbasierte Einblicke in Genexpressionsprofile.
Histo-genomische Hyperaufmerksamkeitskomponente (HSB):
Nutzt die destillierten histo-genomischen Zusammenhänge und die generierten morphologiebasierten Gewichte, um Patienten aus histopathologischer und genomischer Perspektive zu modellieren.
Verbessert so die Krebsprognose.
Die umfangreichen Experimente auf fünf TCGA-Benchmarkdatensätzen zeigen, dass G-HANet die state-of-the-art WSI-basierten Methoden deutlich übertrifft und mit genom-basierten und multimodalen Methoden konkurrenzfähige Leistung erzielt. G-HANet ist ein nützliches Tool, um den derzeitigen Engpass bei unzureichenden histo-genomischen Datenpaarungen im Kontext der Krebsprognose und präzisen Onkologie zu adressieren.
Stats
Für den BLCA-Datensatz wurden durchschnittlich 20,2 Sequenzlängen für Tumorsuppressorgene, 73,8 für Onkogene, 102,2 für Proteinkinasen, 94,8 für Zelldifferenzierungsmarker, 351,6 für Transkription und 78,2 für Zytokine und Wachstum nach der Differenzialanalyse identifiziert.
Für den BRCA-Datensatz wurden durchschnittlich 30,2 Sequenzlängen für Tumorsuppressorgene, 123,2 für Onkogene, 109,6 für Proteinkinasen, 171,4 für Zelldifferenzierungsmarker, 538,6 für Transkription und 165,8 für Zytokine und Wachstum nach der Differenzialanalyse identifiziert.
Für den GBMLGG-Datensatz wurden durchschnittlich 34,6 Sequenzlängen für Tumorsuppressorgene, 129,8 für Onkogene, 177,4 für Proteinkinasen, 139,8 für Zelldifferenzierungsmarker, 535,2 für Transkription und 126,4 für Zytokine und Wachstum nach der Differenzialanalyse identifiziert.
Für den LUAD-Datensatz wurden durchschnittlich 20,0 Sequenzlängen für Tumorsuppressorgene, 87,8 für Onkogene, 146,4 für Proteinkinasen, 171,4 für Zelldifferenzierungsmarker, 386,2 für Transkription und 128,2 für Zytokine und Wachstum nach der Differenzialanalyse identifiziert.
Für den UCEC-Datensatz wurden durchschnittlich 1,2 Sequenzlängen für Tumorsuppressorgene, 8,4 für Onkogene, 7,2 für Proteinkinasen, 8,0 für Zelldifferenzierungsmarker, 24,0 für Transkription und 5,4 für Zytokine und Wachstum identifiziert.
Quotes
"Histo-genomische multi-modale Methoden haben sich in letzter Zeit als leistungsfähiges Paradigma erwiesen und zeigen ein erhebliches Potenzial für die Verbesserung der Krebsprognose."
"Unser End-to-End-Modell ist in Bezug auf Trainingseffizienz und Erlernen von Cross-Modalitäts-Interaktionen überlegen."
"G-HANet wird als nützliches Werkzeug von der Forschungsgemeinschaft erkundet werden, um den derzeitigen Engpass bei unzureichenden histo-genomischen Datenpaarungen im Kontext der Krebsprognose und präzisen Onkologie zu adressieren."