Core Concepts
GazeHTAは、事前学習された拡散モデルを活用し、頭部特徴の再注入と頭部-対象間の明示的な視覚的関連付けを行うことで、単一の入力画像から複数の人物の視線対象を検出する統合的なエンドツーエンドアプローチを提案する。
Abstract
本論文は、視線対象検出のための新しいエンドツーエンドフレームワークであるGazeHTAを提案している。GazeHTAは以下の特徴を持つ:
事前学習された拡散モデルを活用して、シーン特徴を抽出する。これにより、低レベルから高レベルの意味的理解を得ることができる。
頭部特徴の再注入により、頭部の位置推定精度を向上させる。
頭部-対象間の明示的な視覚的関連付けを行う接続マップを学習する。これにより、頭部と視線対象の関係をより強く捉えることができる。
実験の結果、GazeHTAは標準的なデータセットにおいて、従来手法を大きく上回る性能を示した。特に、複数人物が存在する複雑なシーンにおいて顕著な改善が見られた。これは、GazeHTAの統合的なアプローチが頭部と視線対象の関係をより適切にモデル化できることを示している。
Stats
視線対象までの平均距離が画像サイズの6.2%に改善された
視線対象までの最小距離が画像サイズの2.5%に改善された
頭部-視線対象のマッチング精度が63.9%に向上した
Quotes
「GazeHTAは、事前学習された拡散モデルの意味的特徴を活用し、頭部特徴の再注入と頭部-対象間の明示的な関連付けを行うことで、単一の入力画像から複数人物の視線対象を高精度に検出する」
「GazeHTAの統合的なアプローチにより、複雑なシーンにおける頭部と視線対象の関係をより適切にモデル化できることが示された」