Core Concepts
大規模言語モデルと進化的探索を統合することで、視覚認識のための解釈可能な離散属性を学習する。
Abstract
本研究では、大規模言語モデルと進化的探索アルゴリズムを統合することで、視覚認識のための解釈可能な離散属性を学習する手法を提案している。従来の手法では、属性の手動設計や外部知識源からの属性抽出が必要であり、特殊な概念に対する性能が低かった。
提案手法では、大規模言語モデルの文脈学習能力を活用して、属性の効率的な変異を行う。これにより、視覚データから直接、判別的で解釈可能な属性を発見することができる。
実験では、iNaturalistデータセットの希少な植物・動物種、およびKikiBouba架空概念データセットで評価を行った。提案手法は、既存手法と比較して大幅な性能向上を示した。特に、インターネット上で言及されにくい特殊な概念に対して優れた性能を発揮した。
属性の進化過程の分析から、提案手法は視覚的特徴に基づいて解釈可能な属性を発見していることが確認できた。また、属性の解釈性により、データセットバイアスの監査が可能となった。
Stats
画像の色は一般的な特徴であり、分類に有効ではない。むしろ、構造的特徴が重要である。
特殊な概念の画像は、インターネット上で言及されにくいため、既存手法の性能が低い。
Quotes
大規模言語モデルと進化的探索を統合することで、視覚データから直接、判別的で解釈可能な属性を発見できる。
提案手法は、特殊な概念に対して優れた性能を発揮する。