核心概念
大規模な事前学習済みマルチモーダルモデルを使用することで、音声-視覚一般化ゼロショット学習の性能を大幅に向上させることができる。
摘要
本研究では、大規模な事前学習済みマルチモーダルモデルであるCLIPとCLAPを使用して音声と視覚の特徴を抽出し、それらを組み合わせた単純なフィードフォワードニューラルネットワークモデルを提案している。
具体的には以下の通り:
- CLIPとCLAPのテキストエンコーダを使用して、2つの異なるクラスラベルの埋め込みを得る
- これらの埋め込みを組み合わせて、ロバストな統一クラスラベル埋め込みを生成する
- 音声と視覚の特徴、および統一クラスラベル埋め込みを入力とする単純なフィードフォワードネットワークを提案
- 提案手法は、VGGSound-GZSLcls、UCF-GZSLcls、ActivityNet-GZSLcls の各データセットにおいて、従来手法を大幅に上回る性能を達成
本研究の提案手法は、大規模マルチモーダルモデルの強力な一般化能力を活用することで、音声-視覚一般化ゼロショット学習の性能を大幅に向上させることができる。
統計資料
音声-視覚一般化ゼロショット学習の性能は、従来手法と比べて大幅に向上している。
VGGSound-GZSLclsでは、調和平均(HM)が16.18%と、従来手法の11.87%を大幅に上回っている。
UCF-GZSLclsでは、HMが55.97%と、従来手法の最高値42.67%を大幅に上回っている。
ActivityNet-GZSLclsでは、HMが27.93%と、従来手法の最高値20.90%を大幅に上回っている。