本論文は、視覚音声認識(VSR)の性能を向上させるために、関節埋め込み予測アーキテクチャ(JEPA)に基づく知識蒸留手法「JEP-KD」を提案する。JEP-KDは、ビデオエンコーダの意味的特徴抽出能力を高め、事前学習済みの音声認識(ASR)モデルのエンコーダとの整合性を高めることで、VSRとASRの性能差を段階的に縮小することを目的としている。