Core Concepts
本研究は、ガウシアンスプラッティングを用いて、高品質かつリアルタイムな音声駆動型トーキングフェイス生成を実現する。
Abstract
本研究は、GSTalkerと呼ばれる新しい3D音声駆動型トーキングフェイス生成モデルを提案している。主な特徴は以下の通り:
3D Gaussianを用いた表現と、オーディオ情報に基づく変形フィールドを組み合わせることで、高速な学習(40分)と高速なレンダリング(125 FPS)を実現している。これは従来の2Dおよび3DNeRFベースのモデルと比べて大幅な高速化を達成している。
3D Gaussianの静的な初期化を行うことで、効率的な最適化を可能にしている。頭部と胴体の動きの違いを考慮し、それぞれに適した初期化を行っている。
マルチ解像度ハッシュグリッドベースのトライプレーンと時間的な滑らかさモジュールを導入することで、細かな表情の再現を可能にしている。
広範な実験により、GSTalkerが高品質かつ音声同期の良い結果を高速に生成できることを示している。従来手法と比べて、画質、同期精度、学習/推論速度の全ての指標で優れた性能を発揮している。
Stats
学習時間は40分と大幅に短縮されている。
推論速度は125 FPSと非常に高速である。
画質指標のPSNRは34.65と高い値を示している。
口唇同期指標のSyncは5.775と良好な結果が得られている。
Quotes
"GSTalkerは、ガウシアンスプラッティングを用いて、高品質かつリアルタイムな音声駆動型トーキングフェイス生成を実現する。"
"マルチ解像度ハッシュグリッドベースのトライプレーンと時間的な滑らかさモジュールを導入することで、細かな表情の再現を可能にしている。"