大規模な事前学習済みマルチモーダルモデルを使用することで、音声-視覚一般化ゼロショット学習の性能を大幅に向上させることができる。
異なる領域の画像には異なる見られたクラスの属性が含まれている可能性があるため、単一の属性ベクトル表現では不十分である。代わりに、領域ごとの属性に基づいてクラスのパートプロトタイプを構築することで、より効果的な一般化ゼロショット学習が可能になる。