EPIC-SOUNDS は、EPIC-KITCHENS-100 のビデオデータから収集された大規模な音声データセットである。データセットには、78,366の分類された音声イベントと39,187の非分類の音声イベントが含まれており、合計で117,553の音声イベントが収録されている。
音声イベントは、人手で聞いて分類されている。分類された音声イベントは44のクラスに分けられており、物体の衝突音などの特徴的な音が含まれている。一方で、分類できなかった音声イベントは非分類として扱われている。
データセットの分析から以下のような知見が得られた:
EPIC-SOUNDS は、音声認識やマルチモーダル理解の研究に有用なデータセットである。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jaesung Huh,... pada arxiv.org 10-01-2024
https://arxiv.org/pdf/2302.00646.pdfPertanyaan yang Lebih Dalam