Belangrijkste concepten
Recognizing speaking in humans using multimodal signals for privacy-preserving segmentation.
Samenvatting
人間の話し声を認識し、プライバシーを保護しながら多様な信号からセグメンテーションするためのREWINDデータセットが提供されました。高品質な個別音声録音と関連するジェスチャーを使用して話し声を認識する機械学習モデルが可能になります。これにより、過去のデータセットでは不可能だったクロスモダリティ研究も実現します。
Statistieken
33人の被験者のプロフェッショナルネットワーキングイベントで高品質な個別音声録音あり。
3つの基準線:ビデオから、体加速度(胸部着用アクセラレータ)、体ポーストラックから。
20Hzバイナリ話し声ステータス信号予測。
REWINDにはビデオ、ポース、ウェアラブルアクセルレーションを含む3つのモダリティが含まれる。
Citaten
"Recognizing speaking in humans is a central task towards understanding social interactions."
"Machine learning models trained on video and wearable sensor data make it possible to recognize speech by detecting its related gestures."
"The availability of ground truth audio means that our annotations are easy to manually verify or further refine automatically in the future."