Belangrijkste concepten
本文提出一個新的貝氏層級架構,利用截斷的橢圓對稱角高斯分佈(ESAG+)和空間超球面迴歸來分析組合數據,特別考慮了零值分量、正相關性和空間相依性,並引入不確定性傳播機制來處理機器學習分類結果的不確定性。
Samenvatting
文獻回顧
組合數據分析的挑戰
組合數據具有非負和恆定總和的限制,通常以百分比、概率向量或比例的形式出現。
傳統統計方法不適用於組合數據,需要特殊處理。
現有方法(如對數比率轉換和狄利克雷模型)存在局限性:
對數比率轉換不適用於包含零值的組合。
狄利克雷分佈不允許組成成分之間存在正相關。
方向性統計方法的優勢
將組合數據轉換為方向性數據可以克服上述挑戰。
方向性分佈自然允許零值和正相關。
橢圓對稱角高斯分佈(ESAG)具有計算上的優勢。
研究方法
截斷的ESAG分佈(ESAG+)
標準方向性分佈可能在非負正交以外的區域產生支持度,這不適用於組合數據。
本文提出將ESAG分佈截斷至非負正交,以確保生成的數據點可以轉換回單純形。
空間超球面迴歸
建立一個貝氏層級模型,將方向性數據與空間協變量和潛在空間隨機效應進行迴歸。
使用softplus鏈接函數確保平均方向的所有元素均為非負數。
使用可分離模型來指定潛在空間隨機效應的多元空間過程。
不確定性傳播
當組合數據或方向性數據是從另一個模型獲得的輸出時,需要考慮模型A輸出中的任何不確定性。
在超球面迴歸中引入加性項來解決這個問題。
模擬研究
模擬結果顯示,與使用非截斷ESAG分佈的模型相比,使用ESAG+分佈的模型能更好地恢復真實參數值。
ESAG+模型在對數分數和組合距離測量方面也表現出更好的擬合度。
生物聲學組合分析
使用機器學習對美洲噪鴷的生物聲學信號進行分類,得到概率向量(即組合)。
使用貝氏層級模型分析環境因素(溫度和降水)與美洲噪鴷聲學行為之間的關係。
結果顯示,隨著溫度和降水的增加,鼓聲比其他兩種信號更容易被識別。
總結
本文提出了一個新的貝氏層級架構,利用截斷的ESAG分佈和空間超球面迴歸來分析組合數據。
該方法自然允許零值分量、正相關性和空間相依性,並引入了不確定性傳播機制。
模擬研究和生物聲學數據分析證明了該方法的有效性。
Statistieken
本研究分析了 91 個美洲噪鴷的生物聲學錄音。
研究考慮了兩個環境協變量:溫度(攝氏度)和降水量(毫米)。
空間範圍參數 ϕ 的離散均勻先驗分佈的支持度為 Φ = {0.01, ..., 2},增量為 0.1。
MCMC 算法運行了 200,000 次迭代,其中 burn-in 為 80,000 次迭代。
使用了 10,000 個蒙特卡洛樣本來近似式 (3) 中的歸一化常數。