Concepts de base
EPIC-SOUNDS は、家庭の台所で録音された100時間の音声データを収集し、78,366の分類された音声イベントと39,187の非分類の音声イベントを含む大規模なデータセットである。音声イベントは人手で聞いて分類されており、音声のみで判別可能な行動を特定することができる。
Résumé
EPIC-SOUNDS は、EPIC-KITCHENS-100 のビデオデータから収集された大規模な音声データセットである。データセットには、78,366の分類された音声イベントと39,187の非分類の音声イベントが含まれており、合計で117,553の音声イベントが収録されている。
音声イベントは、人手で聞いて分類されている。分類された音声イベントは44のクラスに分けられており、物体の衝突音などの特徴的な音が含まれている。一方で、分類できなかった音声イベントは非分類として扱われている。
データセットの分析から以下のような知見が得られた:
- 視覚情報と音声情報の間には時間的および意味的な不一致が存在する。音声のみでは視覚情報を正確に予測することは困難である。
- 物体の材質に基づく衝突音の認識は難しく、約半数の場合しか正しく認識できない。視覚情報を併せて使うことで認識精度が向上する。
- 音声のみの認識モデルと音声-視覚統合モデルを比較すると、後者の方が優れた性能を示す。特に、視覚情報が有効に活用できる音声イベントの認識精度が高い。
EPIC-SOUNDS は、音声認識やマルチモーダル理解の研究に有用なデータセットである。
Stats
物体の衝突音は、金属同士の衝突音が最も認識しやすい。
布の音は、他の材質の音と区別しにくい。
足音、クリック音、プラスチック-大理石の衝突音は、視覚情報なしでは半数以上が検出されない。
Citations
"音声と視覚の事象は時間的および意味的に一致しない場合が多い。"
"物体の材質に基づく衝突音の認識は難しく、約半数の場合しか正しく認識できない。"
"音声のみの認識モデルと比べ、音声-視覚統合モデルの方が優れた性能を示す。"