本論文は、リアルタイムで高品質な話す頭部合成を実現するGaussianTalkerを提案している。
まず、3D Gaussianを用いて頭部の基本形状を表現し、マルチスケールのトライプレーン特徴表現を用いて、隣接するGaussianの空間的な関係性を学習する。次に、音声特徴とこの3D Gaussianの特徴をクロスアテンションで統合し、各Gaussianの位置、回転、スケール、色などの属性を動的に制御する。これにより、音声に合わせた高品質な口パク同期と頭部動作を生成できる。
提案手法は、従来のNeRF系手法と比べて、高速な推論速度(120FPS)を実現しつつ、高品質な合成結果を出力できる。定量評価では、画質、口パク同期精度、リアリズムの各指標で最高水準の性能を示した。定性評価でも、従来手法と比べて、より自然な頭部動作と細部の表現力を備えていることが確認できる。
提案手法は、ゲームやVRなどのリアルタイムアプリケーションに適用可能であり、より没入感の高いデジタルキャラクタ体験を提供できると期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kyusun Cho,J... at arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.16012.pdfDeeper Inquiries