本文提出了一種名為 MatchTime 的自動足球比賽解說生成系統,透過多模態時間對齊技術解決現有數據集中視覺和文本解說之間普遍存在的錯位問題,並基於此構建了一個高質量的足球比賽解說數據集,用於訓練名為 MatchVoice 的解說生成模型,最終實現準確且專業的足球比賽解說生成。