本文提出了一種名為 SPECTRUM 的新型影片描述生成框架,該框架透過檢索和理解視覺、聽覺和文字模態,生成更準確、更豐富且情感更細膩的影片描述。
本文提出了一種名為「透過區辨提示進行描述 (CDP)」的新方法,旨在為視覺上相似的影片片段生成獨特的描述,解決了現有影片描述方法無法區分重複事件的缺點。