핵심 개념
ターゲットサウンド抽出のためのコンテキストに敏感な低遅延因果関係モデルの重要性と効果を示す。
통계
eCATSE† (ours): 3.54Mパラメータ, レイテンシ8ms, サンプリングレート16kHz, SI-SNRi (dB) / SNR (dB): 12.45 / 15.09, 7.93 / 9.02, 5.62 / 6.07, 平均8.66 / 10.06.
iCATSE (ours): 3.52Mパラメータ, レイテンシ8ms, サンプリングレート16kHz, SI-SNRi (dB) / SNR (dB): 10.07 / 13.02, 4.97 / 6.44, 2.26 / 2.84, 平均5.77 / 7.43.
pcTCN (ours): 3.52Mパラメータ, レイテンシ8ms, サンプリングレート16kHz, SI-SNRi (dB) / SNR (dB):9 .79/12 .94 ,4 .69/6 .26 ,1 .98/2 .60 ,5 .49/7 .27 .
Waveformer [8]: パラメータ数3 .62M , レイテント10 ms , サンプリング率16 kHz , SI-SNRi(dB)/SNR(dB) :9 .39/12 .77 ,4 .65/6 .33 ,1 .30/2 .05 ,5 .11/7 .05 .