核心概念
本文探討如何在神經網路中學習具有離散潛在結構的表徵,並分析了三種主要策略:連續放鬆、替代梯度和概率估計,揭示了它們之間的聯繫、差異和適用性。
這篇論文探討了如何在神經網路中學習具有離散潛在結構的表徵。許多領域的數據,例如自然語言處理、電腦視覺和生物資訊學,都可以用樹、序列或匹配等離散的組合結構來很好地表示。潛在結構模型是學習提取此類表徵的強大工具,它提供了一種結合結構偏差、發現數據洞察力和解釋決策的方法。然而,由於神經網路通常設計用於連續計算,因此有效的訓練具有挑戰性。
本文探討了三種主要的學習離散潛在結構的策略:
連續放鬆
將離散結構放鬆為連續空間中的問題,以便使用基於梯度的優化方法。
例如,使用稀疏約束或熵正則化來鼓勵連續表示接近離散解。
替代梯度
使用替代梯度來處理離散操作(例如 argmax)的不可微性。
例如,直通估計器將梯度直接傳播通過不可微操作。
概率潛在變數
將潛在結構建模為隨機變數,並使用概率估計方法來學習模型參數。
例如,使用變分推斷或蒙特卡洛方法來近似後驗分佈和邊緣似然。