Główne pojęcia
拡散モデルを利用して高品質な合成画像を生成し、深層学習モデルの頑健性を効果的に評価する。
Streszczenie
本研究では、ImageNet-Dと呼ばれる新しい合成画像ベンチマークを提案している。ImageNet-Dは、拡散モデルを利用して背景、テクスチャ、素材などの要素を多様に変化させた画像を生成する。これにより、従来の合成画像ベンチマークよりも高品質で多様な画像を作成できる。
具体的な手順は以下の通り:
- 拡散モデルを用いて、物体カテゴリと背景/テクスチャ/素材の組み合わせを網羅的に生成する。
- 複数の既知のモデルで共通して誤認識する画像を抽出し、最終的なテストセットとする。これにより、新しいモデルに対しても頑健性の低い画像を効果的に選別できる。
- 人手による品質チェックを行い、最終的なImageNet-Dデータセットを構築する。
実験の結果、ImageNet-Dは既存の深層学習モデルの精度を大幅に低下させることが示された。特に、最新の大規模言語モデルであるMiniGPT-4やLLaVaでも16%から30%の精度低下が確認された。これは、ImageNet-Dが深層学習モデルの頑健性評価に有効であることを示している。
Statystyki
ResNet101の精度はImageNetで67.66%だが、ImageNet-Dでは12.38%と55.28%低下した。
CLIP(ViT-B/16)の精度はImageNetで67.95%だが、ImageNet-Dでは21.9%と46.05%低下した。
MiniGPT-4の精度はImageNetで88.77%だが、ImageNet-Dでは71.96%と16.81%低下した。
LLaVaの精度はImageNetで79.32%だが、ImageNet-Dでは49.65%と29.67%低下した。
Cytaty
"ImageNet-Dは既存の深層学習モデルの精度を大幅に低下させる。特に、最新の大規模言語モデルであるMiniGPT-4やLLaVaでも16%から30%の精度低下が確認された。"
"ImageNet-Dが深層学習モデルの頑健性評価に有効であることを示している。"