Alapfogalmak
本稿では、事前に訓練することなく、視覚言語モデル(VLM)と大規模言語モデル(LLM)を用いて、映画やテレビ番組の音声解説(AD)を自動生成する手法を提案する。
Kivonat
AutoAD-Zero: トレーニングフリーなゼロショット音声解説フレームワーク
Xie, J., Han, T., Bain, M., Nagrani, A., Varol, G., Xie, W., & Zisserman, A. (2024). AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description. arXiv preprint arXiv:2407.15850v2.
本研究は、既存の視覚言語モデル(VLM)と大規模言語モデル(LLM)を活用し、追加学習なしに映画やテレビ番組の音声解説を自動生成するフレームワークを提案することを目的とする。