本研究では、ImageNet-Dと呼ばれる新しい合成画像ベンチマークを提案している。ImageNet-Dは、拡散モデルを利用して背景、テクスチャ、素材などの要素を多様に変化させた画像を生成する。これにより、従来の合成画像ベンチマークよりも高品質で多様な画像を作成できる。
具体的な手順は以下の通り:
実験の結果、ImageNet-Dは既存の深層学習モデルの精度を大幅に低下させることが示された。特に、最新の大規模言語モデルであるMiniGPT-4やLLaVaでも16%から30%の精度低下が確認された。これは、ImageNet-Dが深層学習モデルの頑健性評価に有効であることを示している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chenshuang Z... at arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18775.pdfDeeper Inquiries