本研究では、肺細胞診画像の自動分類と自動レポート生成の手法を提案した。
まず、CNNベースのビジョンモデルを用いて、入力画像を良性または悪性に分類する。その結果に応じて、良性用と悪性用の2つのTransformerベースのテキストデコーダを切り替えて使用し、レポートを生成する。
ビジョンモデルの評価では、ResNet50が最も高い分類精度を示した。良性と悪性のテキストデコーダの最適な構造を検討した結果、良性は1層2ヘッド、悪性は2層4ヘッドが最適であった。
提案手法は、単一のテキストデコーダモデルや既存の画像キャプショニングモデルと比較して、より高精度なレポート生成が可能であることが示された。また、分類結果とともにサリエンシーマップも出力できるため、診断支援ツールとしての有用性が高い。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問