toplogo
登入
洞見 - 神經網路 - # 聲學場景分類

基於 Xylo™Audio 2 的 Neurobench:DCASE 2020 聲學場景分類基準測試


核心概念
本文介紹了基於 Xylo™Audio 2 的 DCASE 2020 聲學場景分類基準測試結果,展示了 Xylo™Audio 2 在低功耗聲學場景分類任務中的性能表現。
摘要
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

簡介 本研究以 DCASE 2020 聲學場景分類挑戰為基準,利用 TAU 城市聲學場景 2020 移動數據集(開發和評估),在 Xylo™Audio 2 上進行了基準測試。Xylo™Audio 2 是一款超低功耗音頻推理芯片,專為在實時能量受限場景中進行麥克風內和近麥克風音頻分析而設計。 基準數據集 數據集:TAU 城市聲學場景 2020 移動數據集(開發和評估) 聲學場景:機場、交通中等的街道、乘坐巴士、城市公園(共 4 個) 錄音設備:Soundman OKM II Klassik/studio A3 電容雙耳麥克風(設備 A) 樣本長度:1 秒 數據集拆分:訓練集(41,360 個樣本)、驗證集(1,320 個樣本)、評估集(16,240 個樣本) 音頻預處理 使用模擬 Xylo™Audio 設備上音頻編碼硬件的方法,將每個樣本編碼為稀疏事件。 預處理流程:低噪聲放大器 -> 帶通濾波器組 -> 整流 -> 事件生成(LIF) 將單個音頻通道轉換為 16 個稀疏事件通道,每個通道中的事件速率對應於每個頻段中的能量。 樣本以 10 毫秒的時間間隔進行分箱。 網絡架構 使用稱為“SynNet”的前饋脈衝神經網絡架構。 全連接多層架構,線性權重矩陣與 LIF 神經元層交織。 每層具有多個突觸時間常數,時間常數定義為 τn = 2n * 10 毫秒。 本研究中使用的網絡參數:H = [31, 31, 31] τ = [3, 7, 7],表示 3 個隱藏層,第一個隱藏層寬度為 31 個神經元,依此類推;第一個隱藏層包含 3 個突觸時間常數,第二個包含 7 個,第三個包含 7 個,依此類推。 4 個讀出 LIF 神經元,對應於 4 個目標類別。 訓練 使用開源 Rockpool 工具鏈(使用 Torch 後端)定義網絡。 訓練損失函數:PeakLoss(xi, y) 訓練 epochs:300 訓練準確率:95% 驗證準確率:93% 功耗、延遲和每次推理的能量 使用 Rockpool 部署流程將訓練好的模型量化並部署到 Xylo 設備。 在 XyloAudio 2 硬件開發套件上測量功耗。 音頻編碼功耗:15 µW(平均值) SNN 核心空閒功耗:351 µW SNN 核心活動功耗:692 µW(平均值) 動態功耗:341 µW(估計值) 每次推理的活動能量:57.6 µJ/Inf 每次推理的動態能量:28.4 µJ/Inf(估計值) 總結 本研究展示了 Xylo™Audio 2 在低功耗聲學場景分類任務中的潛力。通過優化的硬件和軟件設計,Xylo™Audio 2 能夠以極低的功耗實現高準確率的聲學場景分類。
統計資料
訓練集樣本數量:41,360 個 驗證集樣本數量:1,320 個 評估集樣本數量:16,240 個 聲學場景數量:4 個 音頻預處理頻段數量:16 個 網絡隱藏層數量:3 個 讀出神經元數量:4 個 訓練準確率:95% 驗證準確率:93% 音頻編碼功耗:15 µW SNN 核心空閒功耗:351 µW SNN 核心活動功耗:692 µW 每次推理的活動能量:57.6 µJ/Inf 每次推理的動態能量:28.4 µJ/Inf

從以下內容提煉的關鍵洞見

by Weijie Ke, M... arxiv.org 11-01-2024

https://arxiv.org/pdf/2410.23776.pdf
Neurobench: DCASE 2020 Acoustic Scene Classification benchmark on XyloAudio 2

深入探究

Xylo™Audio 2 在其他聲學任務(例如語音識別、音樂分類)中的表現如何?

雖然本文主要關注 Xylo™Audio 2 在 DCASE 2020 環境聲音分類任務上的表現,但 Xylo™Audio 2 作為一款超低功耗音頻推理芯片,其設計適用於各種實時音頻分析任務。基於脈衝神經網絡 (SNN) 和稀疏編碼的特性,Xylo™Audio 2 在處理語音識別和音樂分類等其他聲學任務時也具有潛力。 語音識別: Xylo™Audio 2 的低延遲和實時處理能力使其適用於語音關鍵字識別等任務。文獻 [3] 展示了 Xylo™Audio 2 在語音關鍵字識別任務上的應用,證明了其在語音處理方面的能力。 音樂分類: 音樂分類任務通常需要分析音頻信號中的時頻特徵,而 Xylo™Audio 2 的音頻預處理模塊和 SynNet 架構可以有效地提取這些特徵。預計 Xylo™Audio 2 在音樂分類任務中也能夠展現出良好的性能。 然而,需要注意的是,Xylo™Audio 2 在這些任務上的具體表現取決於多個因素,包括: 數據集: 不同任務的數據集特性差異很大,例如語音數據集和音樂數據集的頻譜特性就有所不同。 模型架構: 針對不同任務,需要設計和優化相應的 SNN 模型架構以達到最佳性能。 訓練策略: SNN 的訓練與傳統深度學習模型有所不同,需要採用特定的訓練策略。 總之,Xylo™Audio 2 在語音識別和音樂分類等其他聲學任務中具有潛力,但需要進一步的研究和實驗來評估其性能。

本文使用的 SynNet 架構是否針對 Xylo™Audio 2 硬件進行了專門優化?

是的,本文使用的 SynNet 架構針對 Xylo™Audio 2 硬件進行了專門優化。 脈衝神經網絡: SynNet 是一種脈衝神經網絡 (SNN) 架構,而 Xylo™Audio 2 的核心處理器專為高效模擬 SNN 而設計。 稀疏連接: SynNet 採用全連接的多層架構,但由於 SNN 本身的稀疏激活特性,實際運算過程中只有部分神經元和突觸被激活,這與 Xylo™Audio 2 硬件對稀疏性的支持相契合。 多時間常數: SynNet 在每一層使用多個突觸時間常數,使網絡能夠捕捉不同時間尺度的信息,這與 Xylo™Audio 2 硬件支持可配置時間常數相匹配。 此外,Rockpool 工具鏈的部署流程可以將訓練好的 SynNet 模型量化並部署到 Xylo™Audio 2 設備上,進一步優化模型在硬件上的運行效率。 總之,SynNet 架構的设计充分考虑了 Xylo™Audio 2 硬件的特性,并进行了针对性的优化,以实现高效的音频处理。

如何進一步降低 Xylo™Audio 2 的功耗,使其更適合於電池供電的設備?

Xylo™Audio 2 已經是一款超低功耗的音頻處理芯片,但為了使其更適合於電池供電的設備,可以從以下幾個方面進一步降低其功耗: 硬件層面: 更低功耗的製程: 採用更先進的低功耗製程技術生產芯片,可以有效降低電路功耗。 電壓調節: 根據應用場景動態調節芯片工作電壓,可以在保證性能的前提下降低功耗。 時鐘門控: 對未使用的電路模塊進行時鐘門控,可以避免不必要的功耗。 軟件層面: 模型壓縮: 採用模型剪枝、量化等技術壓縮 SNN 模型的大小,可以減少計算量和内存访问,从而降低功耗。 稀疏性優化: 開發針對 Xylo™Audio 2 硬件特性的 SNN 訓練算法,进一步提高模型的稀疏性,减少神经元和突觸的激活,从而降低功耗。 系統層面: 任務调度: 对于电池供电的设备,可以采用事件驱动的任务调度策略,仅在需要进行音频处理时才激活 Xylo™Audio 2 芯片,其他时间保持休眠状态,从而延长电池续航时间。 功耗感知設計: 在應用程序設計中加入功耗感知机制,根据电池电量动态调整音频处理的频率、精度等参数,以平衡性能和功耗。 通過以上優化措施,可以進一步降低 Xylo™Audio 2 的功耗,使其更適合於電池供電的設備,例如無線耳機、智能助聽器、物聯網傳感器等,拓寬其應用場景。
0
star