核心概念
本文介紹了基於 Xylo™Audio 2 的 DCASE 2020 聲學場景分類基準測試結果,展示了 Xylo™Audio 2 在低功耗聲學場景分類任務中的性能表現。
簡介
本研究以 DCASE 2020 聲學場景分類挑戰為基準,利用 TAU 城市聲學場景 2020 移動數據集(開發和評估),在 Xylo™Audio 2 上進行了基準測試。Xylo™Audio 2 是一款超低功耗音頻推理芯片,專為在實時能量受限場景中進行麥克風內和近麥克風音頻分析而設計。
基準數據集
數據集:TAU 城市聲學場景 2020 移動數據集(開發和評估)
聲學場景:機場、交通中等的街道、乘坐巴士、城市公園(共 4 個)
錄音設備:Soundman OKM II Klassik/studio A3 電容雙耳麥克風(設備 A)
樣本長度:1 秒
數據集拆分:訓練集(41,360 個樣本)、驗證集(1,320 個樣本)、評估集(16,240 個樣本)
音頻預處理
使用模擬 Xylo™Audio 設備上音頻編碼硬件的方法,將每個樣本編碼為稀疏事件。
預處理流程:低噪聲放大器 -> 帶通濾波器組 -> 整流 -> 事件生成(LIF)
將單個音頻通道轉換為 16 個稀疏事件通道,每個通道中的事件速率對應於每個頻段中的能量。
樣本以 10 毫秒的時間間隔進行分箱。
網絡架構
使用稱為“SynNet”的前饋脈衝神經網絡架構。
全連接多層架構,線性權重矩陣與 LIF 神經元層交織。
每層具有多個突觸時間常數,時間常數定義為 τn = 2n * 10 毫秒。
本研究中使用的網絡參數:H = [31, 31, 31] τ = [3, 7, 7],表示 3 個隱藏層,第一個隱藏層寬度為 31 個神經元,依此類推;第一個隱藏層包含 3 個突觸時間常數,第二個包含 7 個,第三個包含 7 個,依此類推。
4 個讀出 LIF 神經元,對應於 4 個目標類別。
訓練
使用開源 Rockpool 工具鏈(使用 Torch 後端)定義網絡。
訓練損失函數:PeakLoss(xi, y)
訓練 epochs:300
訓練準確率:95%
驗證準確率:93%
功耗、延遲和每次推理的能量
使用 Rockpool 部署流程將訓練好的模型量化並部署到 Xylo 設備。
在 XyloAudio 2 硬件開發套件上測量功耗。
音頻編碼功耗:15 µW(平均值)
SNN 核心空閒功耗:351 µW
SNN 核心活動功耗:692 µW(平均值)
動態功耗:341 µW(估計值)
每次推理的活動能量:57.6 µJ/Inf
每次推理的動態能量:28.4 µJ/Inf(估計值)
總結
本研究展示了 Xylo™Audio 2 在低功耗聲學場景分類任務中的潛力。通過優化的硬件和軟件設計,Xylo™Audio 2 能夠以極低的功耗實現高準確率的聲學場景分類。
統計資料
訓練集樣本數量:41,360 個
驗證集樣本數量:1,320 個
評估集樣本數量:16,240 個
聲學場景數量:4 個
音頻預處理頻段數量:16 個
網絡隱藏層數量:3 個
讀出神經元數量:4 個
訓練準確率:95%
驗證準確率:93%
音頻編碼功耗:15 µW
SNN 核心空閒功耗:351 µW
SNN 核心活動功耗:692 µW
每次推理的活動能量:57.6 µJ/Inf
每次推理的動態能量:28.4 µJ/Inf