本稿は、カプセル内視鏡(VCE)画像を用いた消化器疾患の自動分類を目的としたCapsule Vision 2024チャレンジへの取り組みについて述べている。
提供されたデータセットは、正常画像が28000枚なのに対し、最小クラス(寄生虫)はわずか158枚と、非常に不均衡であった。
この問題に対処するため、ランダム回転、水平・垂直反転、弾性変換、ガウスノイズとブラー、ランダムな明るさコントラストなどの様々なデータ拡張手法を用いて、各クラスにつき1500枚の画像を生成した。
Monaiプロジェクトの事前学習済みモデルを評価した結果、EfficientNet-b7が最も優れた検証結果を示したため、最終的なパイプラインのバックボーンとして採用した。
EfficientNet-b7バックボーンに加えて、最終的な分類のために追加レイヤーを追加した。活性化関数には、ReLU、Leaky ReLU、PReLUをテストした結果、PReLUがわずかに優れていたため、採用した。
検証セットにおいて、マイクロ精度は0.845、マクロ精度は0.643を達成した。また、提供されたベースラインモデルであるVGG16と比較して、紅斑を除くすべてのクラスでF1スコアが向上した。
紅斑の分類においては、モデルは糜爛との混同が多く見られ、性能が低かった。
当初は各クラス5000枚の画像生成を目指したが、過剰適合が発生したため、最終的に1500枚に減らした。また、クラスの不均衡に対処するため、Focal lossやクラスウェイトの使用も試みたが、モデルの学習に悪影響を及ぼしたため、最終的には標準的なクロスエントロピー損失関数とクラスウェイトなしの構成を採用した。
本稿では、VCE画像を用いた10クラスの消化器疾患分類のためのCNNベースのモデルを提案した。提案モデルは、MonaiフレームワークのEfficientNetモデルとシンプルな分類レイヤーに基づいており、推論時間を最小限に抑えながら、検証セットにおいて許容できる結果を得ることができた。VCEのような推論時間の短縮が重要な医療画像分類タスクにおいて、CNNベースのモデルは非常に有効であると考えられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問