本論文では、効率的なオーディオ-ビジュアル音声認識(AVSR)モデルを提案している。従来のAVSRモデルは大規模なデータセットと多数のパラメータを必要とし、高い学習コストと導入の課題がある。
提案モデルでは、オーディオ信号を主要な入力とし、ビジュアル信号を補助的な入力として扱う非対称的なアーキテクチャを採用している。中心となるのは「デュアル・コンフォーマー・インタラクション・モジュール(DCIM)」で、これにより効率的な cross-modal 情報交換を実現している。
さらに、事前学習手法を提案し、モデルの性能を向上させている。実験の結果、提案モデルは従来モデルと比較して、パラメータ数を14%削減しつつ、Word Error Rate(WER)を13%改善することができた。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xinyu Wang, ... alle arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.00481.pdfDomande più approfondite