本研究は、大規模言語モデル(LLM)とビジョンモデルを統合したマルチモーダルアプローチ「UlcerGPT」を提案し、糖尿病性足潰瘍(DFU)の画像トランスクリプションを行った。
主な内容は以下の通り:
LLMモデルであるGPT-4o、Qwen-VL、LLaVAと複数のバックボーンモデルを評価し、DFU画像の臨床的な正確性、包括性、位置精度、診断有用性の観点から比較した。
GPT-4oが最も高い総合評価(3.6/5)を示し、DFU画像の重要な臨床的特徴を正確に捉えることができた。一方、オープンソースのLLaVAモデルは全体的に低い性能であった。
臨床医による主観的な評価では、モデル間の差異が統計的に有意であり、特に記述の包括性に大きな違いが見られた。
本手法は、遠隔医療における迅速な診断支援や患者記録の効率化に貢献できる可能性がある。今後は、より大規模なデータセットでの検証や、臨床現場での実用性の評価が必要である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問