Core Concepts
拡散反転の中間ノイズ再構築と入力ノイズ最適化の2つの機能を活用することで、共話ジェスチャー生成に対して高レベルと低レベルの両方の編集機能を提供する統一的な手法を提案する。
Abstract
本研究では、共話ジェスチャー生成のためのディフュージョンモデルに拡散反転を適用することで、高レベルと低レベルの両方の編集機能を提供する統一的な手法を提案している。
高レベルの編集機能では、中間ノイズの再構築を利用して、既存のジェスチャーの特徴を保ちつつ新しい発話条件でジェスチャーを生成することができる。これにより、既存ジェスチャーのスタイルをコピーするような編集が可能となる。
低レベルの編集機能では、入力ノイズの最適化を利用して、関節角度や速度、左右対称性などの詳細な特徴を直接制御することができる。最適化の際に定義した損失関数に応じて、目的の編集を自動的に行うことができる。
実験では、様々な編集タスクを設定し、主観的および客観的な評価を行った。その結果、提案手法が高レベルと低レベルの両方の編集を効果的に実現できることを示した。さらに、他手法と比較して編集の実行時間も短く、実用的な使用に適していることが分かった。
Stats
中間ノイズ再構築に50ステップ、入力ノイズ最適化に3ステップ程度で十分な編集結果が得られる。
提案手法の実行時間は、他手法と比べて大幅に短く、実用的な使用に適している。
Quotes
"拡散反転の中間ノイズ再構築と入力ノイズ最適化の2つの機能を活用することで、共話ジェスチャー生成に対して高レベルと低レベルの両方の編集機能を提供する統一的な手法を提案する。"
"実験では、様々な編集タスクを設定し、主観的および客観的な評価を行った。その結果、提案手法が高レベルと低レベルの両方の編集を効果的に実現できることを示した。"