Core Concepts
単一ソースデータから学習したセグメンテーションモデルの一般化性能を向上させるため、言語モデルを活用して視覚特徴と言語特徴の整合性を高める手法を提案する。
Abstract
本研究では、単一ソースドメイン一般化(SDG)の課題に取り組むため、大規模データセットで事前学習された言語モデルを活用する手法を提案している。
具体的には以下の通り:
単一ソースデータ(CT画像)を用いて学習する際に、ChatGPTを使って各セグメンテーションクラスの特徴(強度、テクスチャ、形状など)を記述した多様なテキスト情報を併せて入力する。
テキスト特徴と画像特徴の整合性を高めるため、テキストガイド型の対照学習モジュールを導入する。これにより、ドメイン固有の視覚特徴ではなく、クリニカルコンテキストに基づいた特徴表現を学習できる。
提案手法は、セグメンテーションネットワークの基本アーキテクチャを変更することなく統合できる。
複数の医用画像データセットを用いた実験(CT-MRI間、bSSFP-LGE間、複数施設間)で、提案手法の有効性を確認した。特に、ドメイン間の差異が大きい場合に顕著な性能向上が見られた。
定量的な指標だけでなく、定性的な評価からも、提案手法がオルガン境界の精密な抽出に優れていることが示された。
Stats
肝臓のCT画像における強度は高く均一なのに対し、MRI画像では信号強度が変化する。
腎臓のCT画像では高信号、MRI画像では低信号となる。
脾臓はCT、MRI共に低信号領域として観察される。
Quotes
「テキスト情報を活用することで、ドメイン固有の視覚特徴ではなく、クリニカルコンテキストに基づいた特徴表現を学習できる」
「提案手法は、セグメンテーションネットワークの基本アーキテクチャを変更することなく統合できる」