Core Concepts
本論文では、アクション中心のスロットアテンションベースのフレームワーク「Action-slot」を提案し、交通シーンにおける複数のラベル付きアトミックアクティビティを効果的に認識する。
Abstract
本論文では、交通シーンにおける複数のラベル付きアトミックアクティビティ認識に取り組んでいる。アトミックアクティビティは、道路構造に基づいた道路利用者の動きパターンを表す高レベルのセマンティックモーションパターンである。
提案手法の「Action-slot」は以下の特徴を持つ:
- 各スロットをアトミックアクティビティクラスに割り当て、アクション中心の表現を学習する。
- 背景スロットを導入し、アクションスロットが背景領域に注目するのを防ぐ。
- 負のクラスに割り当てられたアクションスロットが領域に注目するのを抑制する正則化を導入する。
- 時間方向にパラレルにスロットを更新する新しい手法を提案する。
実験では、提案手法が既存の手法を大きく上回る性能を示し、アクション中心の表現を学習できることを確認した。
また、提案する合成データセット「TACO」を用いることで、稀なアクティビティクラスの評価が可能となり、さらに実世界のデータセットでの性能向上にも貢献することを示した。
Stats
交通シーンにおける複数のラベル付きアトミックアクティビティ認識タスクは、道路利用者の動きパターンと文脈情報を包括的に理解することを要求する。
OATS データセットには、64 クラスのアトミックアクティビティが定義されているが、そのうち 35 クラスしか使用されていない。
TACO データセットは、CARLA シミュレータを用いて収集した 5,178 クリップで構成され、全 64 クラスのアクティビティが均等に分布している。
Quotes
「アトミックアクティビティは、道路構造に基づいた道路利用者の動きパターンを表す高レベルのセマンティックモーションパターンである。」
「Action-slot は、各スロットをアトミックアクティビティクラスに割り当て、アクション中心の表現を学習する。」
「TACO データセットは、CARLA シミュレータを用いて収集した 5,178 クリップで構成され、全 64 クラスのアクティビティが均等に分布している。」