Core Concepts
運転手の気を散らす行動を時間的に正確に分類し、ローカライズするためのトランスフォーマーに基づく解決策を提案。
Abstract
抽象:運転アシストシステムや自然な運転研究で重要な時間内の運転行動の分類とローカリゼーション。
研究目的:ビデオアクション認識と2D人間ポーズ推定ネットワークを1つのモデルに組み込むことで、時間的ローカリゼーションと分類精度を向上させること。
メソッド:2Dポーズ特徴量を位置エンコーディング、時空間特徴量をトランスフォーマーのエンコーダーへの主要入力として使用するトランスフォーマーに基づいた融合アーキテクチャを設計。
提案内容:
2Dポーズ推定から効率的な特徴抽出。
2Dポーズ特徴量とビデオアクション特徴量のエンコーダーモジュールでマルチヘッドアテンションを使用したフュージョン。
実験:
NVIDIA AI City Challenge 2023 A2テストセットで0.5079のオーバラップスコアを達成。
Stats
テストセットA2で0.5079のオーバラップスコアが記録されました。
Quotes
"この研究では、ビデオアクション認識および2D人間ポーズ推定ネットワークを1つのモデルに組み込むことで、時間的ロカリゼーションおよび分類精度パフォーマンス向上を目指しています。"
"提案された解決策は、異なるカメラ数や位置に依存せず、フレームベースのクラス確率を出力します。"