核心概念
GaussianTalkerは、3D Gaussian Splattingを活用して、リアルタイムで高品質な話す頭部合成を実現する新しいフレームワークである。音声特徴と3D Gaussianの特徴を統合したクロスアテンションモジュールにより、各Gaussianの属性を精密に制御し、高品質な口パク同期と頭部動作を生成する。
要約
本論文は、リアルタイムで高品質な話す頭部合成を実現するGaussianTalkerを提案している。
まず、3D Gaussianを用いて頭部の基本形状を表現し、マルチスケールのトライプレーン特徴表現を用いて、隣接するGaussianの空間的な関係性を学習する。次に、音声特徴とこの3D Gaussianの特徴をクロスアテンションで統合し、各Gaussianの位置、回転、スケール、色などの属性を動的に制御する。これにより、音声に合わせた高品質な口パク同期と頭部動作を生成できる。
提案手法は、従来のNeRF系手法と比べて、高速な推論速度(120FPS)を実現しつつ、高品質な合成結果を出力できる。定量評価では、画質、口パク同期精度、リアリズムの各指標で最高水準の性能を示した。定性評価でも、従来手法と比べて、より自然な頭部動作と細部の表現力を備えていることが確認できる。
提案手法は、ゲームやVRなどのリアルタイムアプリケーションに適用可能であり、より没入感の高いデジタルキャラクタ体験を提供できると期待される。
統計
提案手法GaussianTalkerは、従来手法と比べて120FPSの高速な推論速度を実現している。
GaussianTalkerは、PSNR 32.423、SSIM 0.931、LPIPS 0.018と、高品質な合成結果を出力できる。
口パク同期精度を示すSyncスコアは6.554と、従来手法を上回っている。
引用
"GaussianTalkerは、3D Gaussian Splattingを活用して、リアルタイムで高品質な話す頭部合成を実現する新しいフレームワークである。"
"音声特徴と3D Gaussianの特徴を統合したクロスアテンションモジュールにより、各Gaussianの属性を精密に制御し、高品質な口パク同期と頭部動作を生成する。"
"提案手法は、従来のNeRF系手法と比べて、高速な推論速度(120FPS)を実現しつつ、高品質な合成結果を出力できる。"