核心概念
本文提出了一種名為 MatchTime 的自動足球比賽解說生成系統,透過多模態時間對齊技術解決現有數據集中視覺和文本解說之間普遍存在的錯位問題,並基於此構建了一個高質量的足球比賽解說數據集,用於訓練名為 MatchVoice 的解說生成模型,最終實現準確且專業的足球比賽解說生成。
摘要
論文概述
本研究論文題為 "MatchTime: 邁向自動生成足球比賽解說",旨在探討如何利用人工智能技術自動生成專業的足球比賽解說。作者指出,現有的足球比賽視頻數據集存在視覺內容與文本解說之間錯位的問題,這嚴重影響了自動解說系統的訓練效果。為了解決這個問題,作者提出了 MatchTime 系統,該系統包含兩個主要組成部分:
- 多模態時間對齊流程: 該流程利用自動語音識別(ASR)和大型語言模型(LLM)對現有數據集進行自動校正和過濾,將文本解說與視頻關鍵幀進行精確對齊,從而構建了一個高質量的足球比賽解說數據集 MatchTime。
- 自動解說生成模型 MatchVoice: 基於 MatchTime 數據集,作者訓練了一個視覺語言模型 MatchVoice,該模型能夠為給定的比賽視頻片段生成準確且專業的文本解說。
研究方法
1. 時間對齊流程
- 首先,利用 WhisperX 模型從音頻中提取解說文本及其對應的時間戳。
- 然後,使用 LLaMA-3 模型將 ASR 結果總結為每個 10 秒視頻片段的事件描述。
- 最後,利用 LLaMA-3 模型根據句子相似度預測文本解說的新的時間戳,並通過訓練一個多模態時間對齊模型對視頻和解說進行更精細的對齊。
2. 自動解說生成模型 MatchVoice
- 採用預先訓練的視覺編碼器(如 C3D、ResNet、Baidu、CLIP 和 InternVideo)提取視頻幀的特徵。
- 使用類似 Perceiver 的架構聚合視覺特徵中的時間信息。
- 利用 MLP 投影層將聚合的特徵映射到所需的維度,作為解碼器 LLaMA-3 的前綴標記,生成文本解說。
實驗結果
實驗結果表明,MatchTime 系統在自動生成足球比賽解說方面取得了顯著的成果:
- 與現有方法相比,MatchVoice 模型生成的解說在語義信息、表達準確性和專業性方面表現更佳。
- 時間對齊流程顯著提高了解說的質量,證明了時間對齊的必要性。
- 在 LLM 解碼器中引入 LoRA 層可以進一步提升模型的性能,突出了利用特定領域數據的重要性。
總結
本研究提出了一種有效的自動生成足球比賽解說的方法,通過解決數據集中的時間錯位問題,顯著提高了解說的質量。該研究成果對於提升觀眾觀賽體驗、促進體育賽事分析等方面具有重要的應用價值。
统计
超過 50 億觀眾觀看足球比賽 (FIFA, 2023)。
現有數據集中視覺內容和文本解說之間的時間偏差最高可達 152 秒,平均絕對偏差為 16.63 秒。
只有 26.29% 的數據落在關鍵幀前後 10 秒的窗口內。
手動校正 49 場比賽的文本解說時間戳,構建了新的基準數據集 SN-Caption-test-align。
自動對齊流程將平均絕對時間偏差減少了 7.0 秒。
經過對齊後,將近所有 (98.17%) 的文本解說都落在關鍵幀前後 60 秒的窗口內。
MatchTime 數據集包含 422 個視頻,共計 29,476 個視頻-文本對。
引用
"現有足球比賽解說數據集在視覺內容和文本解說之間存在顯著的錯位。"
"通過手動校正,預先訓練的現成 SN-Caption 模型 (Mkhallati et al., 2023) 表現出顯著的性能提升,突出了時間對齊的效果。"
"我們的對齊流程能夠顯著減輕視覺內容和文本解說之間的時間偏差,從而生成一個更高質量的足球比賽解說數據集,稱為 MatchTime。"
"實驗證明,我們的對齊流程和訓練模型在生成解說方面均取得了最先進的性能,表明更好的對齊可以顯著提高下游任務的性能。"