Core Concepts
VocaLiSTのマルチモーダルTransformer動作を模倣するMTDVocaLiSTモデルが提案され、不確実性重み付けを活用して教師モデルのサイズを83.52%削減しつつ競争力のあるパフォーマンスを維持することが示された。
Abstract
オーディオビジュアル同期は口の動きと映像内の音声が同期しているかどうかを決定する。
Vo-caLiSTは、マルチモーダルTransformerを組み込んでオーディオビジュアル相互情報をモデリングし、最先端のパフォーマンスに到達する。
MTD-VocaLiSTモデルは、MTD損失によって訓練され、VocaLiSTのTransformer内のクロスアテンション分布と値関係を深く模倣する。
MTD損失は他の強力な蒸留基準よりも優れており、MTDVocaLiSTは同等サイズのSOTAモデルであるSyncNetやPerfect Matchモデルよりも15.65%および3.35%優れている。
Stats
MTDVocaLiSTはVocaLiSTのサイズを83.52%削減し、競争力のあるパフォーマンスを維持している。
MTD損失は他の蒸留方法よりも優れた結果を示している。
Quotes
"MTD loss outperforms other strong distillation baselines."
"MTDVocaLiST significantly reduces VocaLiST’s size by 83.52%, yet still maintaining competitive performance."