核心概念
WiFiとビジョンモダリティを活用した多モーダル人間活動認識のための自己教師付き学習フレームワークを提案します。
摘要
この論文では、WiFiとビジョンモダリティを使用した多モーダル人間活動認識に焦点を当てています。MaskFiフレームワークは、両方のモダリティからデータをトークナイズし、マスク処理してからトランスフォーマーベースのネットワークに入力します。エンコーダはマスクされたデータを元のデータに再構築することで、多モーダル相関と特徴を捉えます。さらに、ファインチューニングフェーズでは、時間的特徴抽出器と単純な分類器が少ないデータでトレーニングされます。実験結果は、HARタスクにおいて97.61%の精度を達成し、MI2Mの効果を実証しています。
統計資料
WV-Lab Dataset: 97.61% accuracy in normal conditions, 92.17% accuracy in dark conditions.
MM-Fi Dataset: 96.82% accuracy in normal conditions, 90.43% accuracy in dark conditions.
Cross-environment evaluation: Pretrained on MM-Fi, achieves 95.87% accuracy on WV-Lab after finetuning.
Cross-environment evaluation: Pretrained on WV-Lab, achieves 93.15% accuracy on MM-Fi after finetuning.
引述
"MaskFi framework absorbs the advantages of both modalities and shows strong recognition capacity for both arm and leg movements."
"Our approach achieves a very competitive performance on average."
"The proposed method achieves an average accuracy of 96.82% for activity recognition, even outperforming many supervised approaches using vision or WiFi."