Ashish Seth, Ramaneswaran Selvakumar, Sonal Kumar, Sreyan Ghosh, Dinesh Manocha. (2024). PAT: Parameter-Free Audio-Text Aligner to Boost Zero-Shot Audio Classification. arXiv preprint arXiv:2410.15062v1.
本研究は、事前学習済み音声言語モデル (ALE) のゼロショット音声分類性能を、追加学習なしで向上させることを目的とする。
PATは、2つの主要な要素から構成される。(1) 重み付きプロンプトアンサンブル: 音声データに関連性の高いプロンプトを自動的に選択し、重み付けすることで、テキスト表現を強化する。(2) クロスモーダルアライナー: パラメータフリーのアテンション機構を用いて、フレームレベルの音声表現とテキスト表現の整合性を高める。
PATは、ALEのゼロショット音声分類性能を、追加学習やパラメータ調整なしで向上させる効果的な手法である。
本研究は、未知の音声データに対する分類性能の向上に貢献し、音声認識技術の応用範囲を拡大する可能性を示唆している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問