事前学習済み音声言語モデル (ALE) のゼロショット音声分類性能を向上させる、訓練不要な音声テキストアライメント手法、PAT (Parameter-free Audio-Text aligner) を提案する。
クラスラベルの適切な書式化と、音声に関連したクラス記述を活用することで、ゼロショット音声分類の性能を向上させることができる。