本研究は、360度画像における連続的な人間の注視シーケンスを生成する初の手法を提案している。従来の手法は、離散的な注視点列(スキャンパス)の予測や、注視密度マップ(サリエンシー)の生成に焦点を当てていたが、これらは自然な注視行動の重要な側面を無視していた。
提案手法DiffGazeは、条件付き拡散モデルを用いて、360度画像の特徴を条件として、時間的および空間的な注視行動の依存関係をモデル化する。2つのTransformerネットワークを用いて、注視シーケンスの時間的および空間的な依存関係をキャプチャする。
評価実験の結果、DiffGazeは、連続的な注視シーケンス生成、スキャンパス予測、サリエンシー予測のすべてのタスクで、最先端の手法を上回るパフォーマンスを示した。さらに、21人の参加者によるユーザー評価実験では、DiffGazeが生成した注視シーケンスが実際の人間の注視行動と区別できないことが示された。
これらの結果は、DiffGazeが自然な人間の注視行動をよくモデル化できることを示しており、仮想キャラクターのアニメーションや大規模な注視データセットの生成など、様々な応用分野に貢献できる可能性がある。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Chuh... lúc arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17477.pdfYêu cầu sâu hơn