本稿では、事前に訓練することなく、視覚言語モデル(VLM)と大規模言語モデル(LLM)を用いて、映画やテレビ番組の音声解説(AD)を自動生成する手法を提案する。
LLMやVLMといった生成AI技術の進歩により、従来は人手に頼っていた音声解説生成の自動化が現実味を帯びてきた。本論文では、高品質な音声解説生成に向けた課題と将来展望について議論する。