Core Concepts
本研究は、360度画像に対する連続的な人間の注視シーケンスを生成する初の手法を提案する。提案手法DiffGazeは、条件付き拡散モデルを用いて、画像特徴を条件として、時間的および空間的な注視行動の依存関係をモデル化する。
Abstract
本研究は、360度画像における連続的な人間の注視シーケンスを生成する初の手法を提案している。従来の手法は、離散的な注視点列(スキャンパス)の予測や、注視密度マップ(サリエンシー)の生成に焦点を当てていたが、これらは自然な注視行動の重要な側面を無視していた。
提案手法DiffGazeは、条件付き拡散モデルを用いて、360度画像の特徴を条件として、時間的および空間的な注視行動の依存関係をモデル化する。2つのTransformerネットワークを用いて、注視シーケンスの時間的および空間的な依存関係をキャプチャする。
評価実験の結果、DiffGazeは、連続的な注視シーケンス生成、スキャンパス予測、サリエンシー予測のすべてのタスクで、最先端の手法を上回るパフォーマンスを示した。さらに、21人の参加者によるユーザー評価実験では、DiffGazeが生成した注視シーケンスが実際の人間の注視行動と区別できないことが示された。
これらの結果は、DiffGazeが自然な人間の注視行動をよくモデル化できることを示しており、仮想キャラクターのアニメーションや大規模な注視データセットの生成など、様々な応用分野に貢献できる可能性がある。
Stats
360度画像の特徴抽出には球面畳み込みニューラルネットワーク(S-CNN)を使用した。
時間エンベディングには128次元の正弦波エンコーディングを使用した。
特徴エンベディングには16次元のカテゴリカルエンコーディングを使用した。