本研究では、大規模な事前学習済みマルチモーダルモデルであるCLIPとCLAPを使用して音声と視覚の特徴を抽出し、それらを組み合わせた単純なフィードフォワードニューラルネットワークモデルを提案している。
具体的には以下の通り:
本研究の提案手法は、大規模マルチモーダルモデルの強力な一般化能力を活用することで、音声-視覚一般化ゼロショット学習の性能を大幅に向上させることができる。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Davi... lúc arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06309.pdfYêu cầu sâu hơn