Core Concepts
オーディオ理解のための対話型データセットを提案し、一般的な音声とミュージックの理解を深める。
Abstract
本論文では、オーディオ理解のための新しい対話型データセット「オーディオ対話」を提案している。従来のデータセットは単一のやり取りに焦点を当てていたが、本データセットは複数回のやり取りを含む対話形式で構成されている。
具体的には以下の特徴がある:
AudioSet-SL と MusicCaps のキャプション情報を活用し、GPT-4を用いて163.8kの対話サンプルを生成した。
一般的な音声とミュージックの両方を対象としており、各サブセットには以下のものが含まれる:
AudioSet対話: 76,642件の訓練データ、1,442件のテストデータ
ミュージック対話: 3,358件の訓練データ、1,641件のテストデータ
AudioSet比較: 64,085件の訓練データ、16,249件のテストデータ
各対話は1~4ラウンドで構成され、1~4個のオーディオサンプルを入力として使用している。
生成された対話の品質を高めるため、フィルタリング手法を導入している。
本データセットを用いて、LTU、Qwen-Audio、Audio Flamingoの3つの最新のオーディオ理解モデルを評価した結果、対話能力が大幅に向上することが示された。
Stats
音声の特徴は「リズミック、拍動的、柔らかい鼓動音」です。
背景ノイズは「望ましくない、気を散らす環境音」です。
Quotes
「オーディオ、人間のコミュニケーションと相互作用の根幹をなす要素、膨大な情報を含む」
「オーディオ理解モデルの対話能力向上には、対話型データセットが不可欠」