核心概念
透過融合聲學特徵和先進的機器學習演算法,可以有效地對牛的發聲進行分類,並評估其情緒狀態,從而改善動物福利。
摘要
研究論文摘要
書目資訊
Jobarteh, B., Mincu, M., Dinu, G., & Neethirajan, S. (2024). Multi Modal Information Fusion of Acoustic and Linguistic Data for Decoding Dairy Cow Vocalizations in Animal Welfare Assessment.
研究目標
本研究旨在探討如何利用多模態資訊融合技術,整合聲學特徵提取和先進的機器學習演算法,將乳牛的發聲分類為與壓力或喚醒相關的高頻呼叫 (HFC) 和表示滿足或平靜的低頻呼叫 (LFC),以評估動物福利。
研究方法
研究人員從 20 頭隔離四小時的泌乳牛身上收集了 1,144 個發聲數據。他們使用 Praat 軟體對錄音進行分割並提取了 23 個聲學參數,包括基頻 (F0)、共振峰頻率、持續時間和諧波度。然後,他們使用 OpenAI Whisper 模型將牛的發聲轉錄為文本,並使用 Librosa 庫進行特徵提取,重點關注頻率、持續時間和響度等參數。最後,他們採用了隨機森林、支持向量機 (SVM) 和遞迴神經網路 (RNN) 模型對數據進行分類和分析。
主要發現
- SVM 模型表現最佳,準確率達 98.35%。
- 隨機森林模型也表現出色,F1 分數為 0.98,尤其是在預測與壓力相關的呼叫方面。
- 頻率是區分發聲的最重要預測因子,其次是響度和持續時間。
- HFC 的特點是頻率較高、間隔較短和發聲序列較快,而 LFC 則表現出較長且穩定的間隔。
主要結論
研究結果表明,將先進的機器學習技術與多模態資訊融合相結合,可以有效地監測乳牛的發聲並評估其情緒狀態。這為開發基於數據的動物護理框架提供了依據,並可以利用資訊融合來改進決策過程。
研究意義
該研究強調了將聲學和語義分析整合到常規養殖實踐中的迫切性,並為開發用於動物護理的數據驅動框架鋪平了道路。
研究局限和未來方向
未來研究可以納入更多樣化的牛品種和環境數據,並應用更先進的深度學習框架和變壓器模型,以進一步提高模型的準確性和可靠性。此外,還可以整合視覺數據、行為觀察和生理指標,以實現更全面和可靠的動物福利評估。
統計資料
研究人員從 20 頭隔離四小時的泌乳牛身上收集了 1,144 個發聲數據。
SVM 模型的準確率達到了 98.35%。
隨機森林模型的 F1 分數為 0.98。
HFC 的頻率範圍為 110.59 Hz 至 494.16 Hz,響度範圍為 -39.71 dB 至 -2.45 dB,持續時間範圍為 0.638 至 9.581 秒。
LFC 的頻率範圍為 72.61 Hz 至 183.27 Hz,響度範圍為 -53.88 dB 至 -8.16 dB,持續時間範圍為 0.650 至 2.921 秒。
引述
"This study introduces a novel approach to animal behavior and welfare assessment by employing multi-modal information fusion techniques to analyze cow vocalizations."
"By fusing key acoustic features—frequency, loudness, and duration—we utilized Random Forest, Support Vector Machine (SVM), and Recurrent Neural Network (RNN) models to classify cow vocalizations effectively."
"Our work paves the way for developing data-driven frameworks for animal care, leveraging information fusion to improve decision-making processes."