本研究は、音声-テキスト検索(ATR)タスクに対して生成的モデリングの観点から新しいアプローチを提案している。従来のATRは識別的モデリングに基づいており、条件付き確率分布p(candidates|query)を最大化することに焦点を当ててきた。しかし、このアプローチでは入力分布p(query)を考慮しないため、未知のデータに対する一般化性が低いという問題がある。
本研究では、拡散モデルを用いて音声とテキストの共同分布p(candidates, query)を直接モデル化することで、この問題に取り組む。具体的には、DiffATRと呼ばれる拡散モデルベースのフレームワークを提案している。DiffATRは、ノイズから徐々に音声とテキストの関係を表す共同分布を生成する反復プロセスとしてATRタスクをモデル化する。
DiffATRの学習では、生成的な観点と識別的な観点の両方から最適化を行う。生成器は生成損失(KLダイバージェンス)によって改善され、一方でエンコーダは対比損失(NT-Xent損失)によって最適化される。これにより、識別的な精度と生成的な柔軟性の両方の長所を活かすことができる。
実験では、AudioCapsとClothoの2つのベンチマークデータセットでDiffATRの優れた性能を確認した。さらに、ドメイン外のデータに対しても高い一般化性を示すことを実証した。これは、生成的アプローチがATRタスクの新しい可能性を切り開くことを示唆している。
翻譯成其他語言
從原文內容
arxiv.org
深入探究