Core Concepts
ウェアラブルセンサを活用した人間行動認識において、マルチモーダル学習は性能向上に有効な手法である。
Abstract
本調査では、ウェアラブルセンサを用いた人間行動認識(WSHAR)における最新のマルチモーダル学習アプローチについて包括的に紹介する。
まず、人間行動認識に用いられる視覚的モダリティ(RGB画像、エゴセントリックビデオ、スケルトンシーケンス)と非視覚的モダリティ(音声、WiFi、慣性センサ)について分析する。次に、WSHAR問題に適用されている現在のマルチモーダルアプローチを、視覚的モダリティと非視覚的モダリティを組み合わせる「inter-multimodal」アプローチと、非視覚的モダリティ同士を組み合わせる「intra-multimodal」アプローチの2つの観点から紹介する。
その上で、WSHAR分野における主要な課題(データセットの不足、ラベル付きデータの限界、クラスの不均衡など)に対して、他分野のマルチモーダル学習手法を応用することで解決できる可能性について議論する。具体的には、大規模データ合成、データ拡張、自己教師あり学習などの手法を紹介する。
最後に、WSHAR分野におけるマルチモーダル学習の今後の課題と可能性について考察する。本調査は、WSHAR分野の新しい研究者や実務家にとって有益な情報源となることが期待される。
Stats
ウェアラブルデバイス市場は2025年までに約630億ドルに達すると予測されている。
加速度センサとジャイロスコープを搭載したスマートウォッチは、スマートフォンよりも人間の行動を捉えやすい。
視覚的モダリティと非視覚的モダリティを組み合わせたマルチモーダルアプローチは、単一モダリティよりも高い認識精度を達成できる。
Quotes
"人間は日常生活の中で、多様な感覚情報を統合的に処理することで環境を認知している。"
"マルチモーダル機械学習は、異なるデータソースからの情報を融合することで、より堅牢で正確な認識を実現できる。"