核心概念
本論文では、サッカー試合の映像と実況テキストの間に存在する時間的なずれを解消することで、より正確で質の高い自動実況生成システムの構築を目指している。
统计
サッカーの視聴者は50億人を超える (FIFA, 2023)。
手動で修正したデータセットでは、実況テキストのタイムスタンプのずれは最大で152秒、平均で16.63秒であった。
既存データセットのタイムスタンプは、キーフレームに対して、10秒以内、30秒以内、45秒以内、60秒以内に収まっている割合は、それぞれ26.29%、60.21%、74.96%、85.03%であった。
提案手法を用いることで、平均絶対時間誤差を7.0秒短縮できた。
提案手法を用いることで、キーフレームに対して10秒以内に収まっている割合を45.41%向上できた。
引用
"Commentary plays a crucial role in improving the viewing experience, providing context, analysis, and emotional excitement to the audience."
"This paper aims to develop an high-quality, automatic soccer commentary system."
"This highlights the severe misalignment in existing datasets, which will potentially confuse the model training for automatic commentary generation."
"Our alignment pipeline enables to significantly mitigate the temporal offsets between the visual content and textual commentaries, resulting in an higher-quality soccer game commentary dataset, named MatchTime."