Core Concepts
大規模言語モデルGPT-4Vの強力な多モーダル処理能力と指示理解能力を活用し、既存の手法に比べて高品質な自動音声解説を生成できる。
Abstract
本論文では、大規模言語モデルGPT-4Vを活用した自動音声解説(Audio Description, AD)生成パイプラインを提案している。従来のAD生成手法は専門的な技術と多大な労力を必要としていたが、本手法ではGPT-4Vの多モーダル処理能力と指示理解能力を活用することで、追加の学習なしに高品質なADを生成できる。
具体的には以下の2つの特徴がある:
GPT-4Vに対して、ADの制作ガイドラインや望ましい出力長さを自然言語で指示することで、ADの生成を効果的に行う。
人物の追跡と顔認識を組み合わせた手法を導入し、人物情報の一貫性を保ちつつ、新しい映像コンテンツにも適用可能な手法を実現している。
実験では、MADデータセットを用いて提案手法の有効性を検証し、既存手法と同等以上の性能を示すことができた。CIDEr scoreは20.5を達成し、新たな最高水準を示した。
Stats
提案手法のCIDEr scoreは20.5であり、既存手法と同等以上の性能を示した。
提案手法のROUGE-Lスコアは13.5であり、既存手法を上回る性能を示した。
Quotes
"大規模言語モデルGPT-4Vの強力な多モーダル処理能力と指示理解能力を活用し、既存の手法に比べて高品質な自動音声解説を生成できる。"
"人物の追跡と顔認識を組み合わせた手法を導入し、人物情報の一貫性を保ちつつ、新しい映像コンテンツにも適用可能な手法を実現している。"