Core Concepts
基盤モデルを使用して、COVID-19 検査キットの結果を正確に解釈し、検査キットの位置と結果ウィンドウを正確に特定することは困難である。
Abstract
本研究では、COVID-19 検査キット(LFT)の画像を解釈する際の現代の基盤ビジョン言語モデル(VLM)の能力を探索しています。
まず、LFT 画像のヒエラルキカルな分割を含む新しいデータセット「LFT-Grounding」を作成しました。このデータセットには、LFT 検査と結果ウィンドウの位置情報が含まれています。
次に、8つの代表的な VLMをゼロショット設定で評価しました。その結果、現在のVLMは、LFT 検査の種類の識別、検査結果の解釈、LFT 検査の結果ウィンドウの位置特定、部分的に隠れたLFT 検査の認識などに頻繁に失敗することが分かりました。
LFT 結果の自動解釈を改善するには、より多様なLFT 画像データの収集、VLMの視覚的根拠の解釈能力の向上、小さな領域の特定精度の向上などが重要な課題となります。本研究のデータセットの公開により、この分野の研究が促進されることが期待されます。
Stats
COVID-19 検査キットの結果を正確に識別できるモデルは少ない。
検査キットの位置と結果ウィンドウの位置を正確に特定するのは困難。
部分的に隠れた検査キットの認識も難しい。
Quotes
"VLMは、LFT検査の種類を認識したり、検査結果を解釈したり、LFT検査の結果ウィンドウの位置を特定したり、部分的に隠れたLFT検査を検出したりするのに頻繁に失敗する。"
"LFT結果の自動解釈を改善するには、より多様なLFT画像データの収集、VLMの視覚的根拠の解釈能力の向上、小さな領域の特定精度の向上などが重要な課題となる。"