本研究では、長編ビデオの潜在的な特性を学習するために、一般的な事前学習手法を提案している。従来の手法は、ピクセル空間での学習に限界があり、長編ビデオの複雑な概念を十分に捉えられないという課題があった。
本研究では、長編ビデオを、テキストの説明とキャラクターの位置情報(バウンディングボックスや関節点)からなるトークン列として表現する。これにより、一般的な言語モデルであるGPTを用いて、長編ビデオの潜在的な特性を効果的に学習することができる。
具体的には、映画のストーリーボードデータセットである「Storyboard20K」を用いて、GPTモデルを事前学習する。このデータセットには、映画のシナリオ、キーフレーム、キャラクターの位置情報などが含まれている。事前学習により、モデルは長編ビデオの潜在的な特性を学習し、新しい映画ストーリーボードを生成することができる。
実験結果から、提案手法は長編ビデオの潜在的特性を効果的に学習できることが示された。生成されたストーリーボードは、シナリオとよく整合しており、キャラクターの動きや表情なども自然に表現できている。また、提案手法は、従来の手法と比べて優れた性能を示している。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies