Concetti Chiave
EyeDiffと呼ばれる新しいテキストから画像への拡散モデルは、自然言語のプロンプトから多様な眼科画像を生成することで、希少な眼疾患の診断精度を大幅に向上させることができます。
Sintesi
EyeDiff:テキストから画像への拡散モデルを用いた希少眼疾患診断の向上
この研究論文は、希少な眼疾患の診断におけるデータの不均衡と不足という課題に対処するために開発された、EyeDiffと呼ばれる新しいテキストから画像への拡散モデルについて述べています。
この研究の主な目的は、テキストプロンプトから多様な眼科画像を合成できるテキストから画像への拡散モデルであるEyeDiffを開発し、一般的な眼疾患と希少な眼疾患の診断におけるその有効性を評価することです。
EyeDiffは、SD v1-5に基づくテキストから画像への拡散モデルであり、8つの大規模データセットから収集された42,048枚の多峰的網膜画像を使用してトレーニングされました。トレーニングデータセットには、カラー眼底写真(CFP)、光干渉断層法(OCT)、眼底蛍光血管造影(FFA)など、14の画像モダリティと80を超える眼疾患が含まれていました。トレーニングプロセス中に、テキストプロンプトが入力として使用され、対応する画像がEyeDiffのトレーニングのグランドトゥルースとして使用されました。モデルのパフォーマンスを評価するために、10の外部検証データセットから14,530枚の画像が使用されました。生成された画像の品質は、VQAScoreと、2人の経験豊富な眼科医による視覚的品質評価とチューリングテストを使用して評価されました。さらに、EyeDiff生成画像の、少数のクラスと希少な眼疾患の検出精度を高める能力を評価するために、Vision Transformer(ViT)を使用して下流の診断タスクを実行しました。