核心概念
自由なコントロール可能なリスナーヘッド生成を実現するためのCustomListenerフレームワークが提案されました。
摘要
この論文では、CustomListenerというユーザーフレンドリーなフレームワークが導入され、テキストガイドによるリスナーヘッド生成が可能となりました。Speaker-listenerの調整を実珸するために、SDPモジュールが提案され、動的ポートレートトークンの生成を行いました。また、長いビデオでの一貫性を確保するためにPGGモジュールが設計されました。包括的な実験により、提案手法の優越性が検証されています。
統計資料
FD ↓: 18.48 (Dtest), 12.67 (Dood)
RTLCC ↓: 0.165 (Dtest), 0.197 (Dood)
RWTLCC ↓: 0.169 (Dtest), 0.201 (Dood)
FID △fm↓: 3.42 (Dtest), 5.94 (Dood)
SND ↓: 4.23 (Dtest), 1.25 (Dood)
引述
"Users can pre-customize detailed attributes of the listener agent."
"Our model can decrease the average RTLCC and RWTLCC, justifying the effectiveness of dynamic portrait tokens."
"Our proposed PGM can maintain the consistency of listener’s customized behavioral habits between adjacent clips."