Core Concepts
CT-GLIPは、3D医療画像と放射線レポートの組み合わせを活用し、臓器レベルの言語-画像アライメントを行うことで、臓器分類や異常検出の零shot性能を向上させる。
Abstract
本研究は、3D医療画像(CT)と放射線レポートのマルチモーダルデータを活用し、言語-画像事前学習(VLP)の手法を拡張している。従来のVLPは主に2D医療画像(胸部X線)を対象としていたが、本研究ではより複雑な3D医療画像に焦点を当てている。
具体的には以下の取り組みを行っている:
臓器レベルの言語-画像ペアを構築し、効率的な多重モーダル対比学習を実現する。これにより、3D医療画像の疎な表現に起因する言語-画像アライメントの課題に対処する。
異常テキスト記述の辞書を開発し、対比学習に多様なネガティブサンプルを提供することで、その効果を高める。
提案手法「CT-GLIP」を用いて、44,011の臓器レベルの言語-画像ペアから成る大規模なマルチモーダルデータセットを構築した。
零shot臓器分類と異常検出、さらに腫瘍セグメンテーションと検出の性能評価を行い、従来手法を上回る結果を示した。
本研究は、3D医療画像の言語-画像アライメントに新たな知見を与え、医療診断支援への応用に寄与することが期待される。
Stats
44,011の臓器レベルの言語-画像ペアを含むマルチモーダルデータセットを構築した
1,130人の患者データを用いて16種類の最頻出異常を対象とした評価を行った
Quotes
"CT-GLIP (Grounded Language-Image Pretraining with CT scans)は、臓器レベルの言語-画像ペアを構築し、多重モーダル対比学習を強化することで、3D医療画像の言語-画像アライメントを効率的に実現する"
"提案手法は、異常テキスト記述の辞書を開発し、対比学習に多様なネガティブサンプルを提供することで、その効果を高めている"