Core Concepts
ゼロショット学習では、既知のカテゴリの意味的知識を活用して新しいカテゴリを認識することができる。しかし、属性の分布の偏りや属性の共起などの現実世界の課題により、局所的な視覚的特徴の識別が困難になる。本研究では、証拠ベースの深層学習を初めてゼロショット学習に導入し、双方向のクロスモーダル表現を活用することで、視覚-属性の整合性を高め、ロバストな認識を実現する。
Abstract
本研究は、ゼロショット学習(ZSL)の課題に取り組むCRESTと呼ばれる新しいフレームワークを提案している。
主な特徴は以下の通り:
視覚特徴と属性特徴の双方向のグラウンディング変換器を導入し、局所的な視覚-属性の対応関係を学習する。これにより、カテゴリ間の属性の共起などの課題に対処できる。
証拠ベースの深層学習(EDL)をZSLに初めて適用し、モーダル間の不確実性を定量化することで、クロスモーダルの融合を改善する。これにより、未知のカテゴリに対する一般化性能が向上する。
視覚インスタンスレベルの対比学習、属性カテゴリの疎な関係学習などの手法を導入し、視覚-属性-カテゴリ間の整合性を高める。
複数のベンチマークデータセットで実験を行い、提案手法CREST が既存手法を上回る性能を示すことを確認した。特に、既知クラスと未知クラスのバランスの取れた高精度を達成している。
Stats
視覚特徴と属性特徴の融合により、未知クラスの認識精度が71.1%に向上した。
既知クラスと未知クラスの調和平均精度が71.7%と高い値を示した。
属性の共起関係を考慮することで、属性-カテゴリ間の整合性が向上し、ゼロショット学習の性能が向上した。
Quotes
"ゼロショット学習では、既知のカテゴリの意味的知識を活用して新しいカテゴリを認識することができる。"
"属性の分布の偏りや属性の共起などの現実世界の課題により、局所的な視覚的特徴の識別が困難になる。"
"証拠ベースの深層学習をZSLに初めて適用し、モーダル間の不確実性を定量化することで、クロスモーダルの融合を改善する。"