Conceitos Básicos
画像データと患者 narratives を組み合わせたマルチモーダルアプローチにより、皮膚疾患の診断精度を大幅に向上させることができる。
Resumo
皮膚疾患の検出と分類に対するマルチモーダルアプローチ
本研究は、画像データと患者の症状説明文を組み合わせたマルチモーダルアプローチを用いて、皮膚疾患の診断精度を向上させることを目的とする。
Kaggle で公開されている3つの皮膚疾患画像データセットを統合し、26種類の皮膚疾患を含む36,995枚の画像データセットを作成した。
各皮膚疾患の症状をGoogleから収集し、ChatGPTを用いて患者が語るような症状説明文を生成した。
画像分類には、VGG、ResNet、EfficientNet、ViTなどの畳み込みニューラルネットワーク(CNN)を用い、転移学習やファインチューニングなどの手法を用いて最適化した。
テキスト分類には、Llama-7B、Falcon-7B、Mistral-7Bなどの大規模言語モデル(LLM)を用い、LoRAを用いたファインチューニングを行った。
画像モデルとLLMを組み合わせたマルチモーダルモデルでは、画像モデルの予測結果をLLMの入力に用いることで、診断精度をさらに向上させた。