Conceitos essenciais
現代のビジョンベースモデルの強靭性を評価するために、ObjectComposeメソッドがオブジェクトと背景の構成変化を生成します。
Resumo
最近のビジョンモデルは、実世界で存在する異なるオブジェクト背景構成の多様性を捉えることができません。この研究では、ObjectComposeメソッドがオブジェクトと背景の変化に対する現代のビジョンベースモデルの強靭性を評価します。これにより、オブジェクトセマンティクスを保持しながら、多様なオブジェクト-背景構成変化を生成し、モデルの脆弱性を明らかにします。
Estatísticas
ImageNet validation setから30k枚の画像を収集し、15k枚に処理された。
COCO 2017バリデーションセットから1,127枚の画像が手動で選択された。
Inpaint Stable Diffusion v2がtext-to-imageモデルとして使用された。
Citações
"Given the large-scale multi-modal training of recent vision-based models and their generalization capabilities, understanding the extent of their robustness is critical for their real-world deployment."
"Our method addresses the limitations of current works, specifically distortion of object semantics and diversity in background changes."
"We anticipate that our insights will pave the way for a more thorough evaluation of vision models, consequently driving the development of more effective methods for improving their resilience."