この論文では、CustomListenerというユーザーフレンドリーなフレームワークが導入され、テキストガイドによるリスナーヘッド生成が可能となりました。Speaker-listenerの調整を実珸するために、SDPモジュールが提案され、動的ポートレートトークンの生成を行いました。また、長いビデオでの一貫性を確保するためにPGGモジュールが設計されました。包括的な実験により、提案手法の優越性が検証されています。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xi Liu,Ying ... kl. arxiv.org 03-04-2024
https://arxiv.org/pdf/2403.00274.pdfDybere Forespørgsler