Core Concepts
深層残差学習を組み込んだ選択的状態空間モデル(Res-VMamba)を提案し、CNFOOD-241データセットにおいて最先端のパフォーマンスを達成した。
Abstract
本研究では、食品画像の高精細分類に取り組んでいる。食品画像分類は、料理方法、調理法、盛り付けスタイルなどの要因により、同一カテゴリーの食品でも大きな外観の違いがあるため、高精細な特徴抽出が必要となる。
研究では、最新の状態空間モデルであるVMambaをベースに、深層残差学習を組み込んだRes-VMambaモデルを提案した。Res-VMambaは、VMambaの局所的特徴と全体的特徴を融合することで、高精細な分類を実現している。
実験では、CNFOOD-241データセットを用いて評価を行った。CNFOOD-241は、高解像度かつカテゴリー間のデータ分布が偏っているため、高精細分類の難易度が高い。
その結果、Res-VMambaは、最先端のモデルと比較して、Top-1精度で2.02%、Top-5精度で0.53%の精度向上を達成した。これにより、Res-VMambaが食品画像の高精細分類において新たな基準を示すことができた。
Stats
同一カテゴリーの食品でも外観が大きく異なる可能性がある
CNFOOD-241データセットは高解像度(600x600ピクセル)で、カテゴリー間のデータ分布が偏っている
Quotes
"食品画像分類は、料理方法、調理法、盛り付けスタイルなどの要因により、同一カテゴリーの食品でも大きな外観の違いがあるため、高精細な特徴抽出が必要となる。"
"CNFOOD-241は、高解像度かつカテゴリー間のデータ分布が偏っているため、高精細分類の難易度が高い。"