Core Concepts
本研究では、CNNビジョンモデルによる画像分類と、Transformerベースのテキストデコーダを組み合わせた手法を提案し、肺細胞診画像からの自動レポート生成を実現した。
Abstract
本研究では、肺細胞診画像の自動分類と自動レポート生成の手法を提案した。
まず、CNNベースのビジョンモデルを用いて、入力画像を良性または悪性に分類する。その結果に応じて、良性用と悪性用の2つのTransformerベースのテキストデコーダを切り替えて使用し、レポートを生成する。
ビジョンモデルの評価では、ResNet50が最も高い分類精度を示した。良性と悪性のテキストデコーダの最適な構造を検討した結果、良性は1層2ヘッド、悪性は2層4ヘッドが最適であった。
提案手法は、単一のテキストデコーダモデルや既存の画像キャプショニングモデルと比較して、より高精度なレポート生成が可能であることが示された。また、分類結果とともにサリエンシーマップも出力できるため、診断支援ツールとしての有用性が高い。
Stats
良性細胞の背景は比較的きれいで、小さな集簇を形成する円柱上皮細胞がある。
悪性細胞には、核の過染色性、核の不整形、淡明な細胞質、目立つ核小体、粘液を含む泡沫状の細胞質を持つ腺癌細胞がある。
悪性細胞には、角化した扁平上皮細胞、過染色性の核、不整形の核を持つ扁平上皮癌細胞がある。
Quotes
「良性細胞の背景は比較的きれいで、小さな集簇を形成する円柱上皮細胞がある。」
「悪性細胞には、核の過染色性、核の不整形、淡明な細胞質、目立つ核小体、粘液を含む泡沫状の細胞質を持つ腺癌細胞がある。」
「悪性細胞には、角化した扁平上皮細胞、過染色性の核、不整形の核を持つ扁平上皮癌細胞がある。」