本研究は、音声-テキスト検索(ATR)タスクに対して新しい手法を提案している。
まず、変換器ベースの階層的アラインメント(THA)モジュールを導入し、音声と文章の異なる変換器ブロックの間の多レベルの対応関係を学習する。これにより、単一レベルの相互作用に依存する従来手法の限界を克服する。
さらに、高次元の音声とテキストの表現を compact な潜在因子に分離する分離された cross-modal 表現(DCR)アプローチを提案する。これにより、細粒度な音声-テキストの意味的相関を捉えることができる。また、各潜在因子ペアの信頼度を推定する confidence-aware(CA)モジュールを導入し、適応的な潜在因子の集約を行う。
実験の結果、提案手法のTHAとDCRの組み合わせが、従来手法に比べて大幅な性能向上を達成することが示された。THA単独でも、DCR単独でも優れた性能を発揮することから、それぞれの手法の有効性が確認された。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies