在神經物理模擬器的訓練中,非微分展開訓練方法在結合數值求解器的情況下,可以達到與全微分預測方法相媲美的精度,甚至超越未結合求解器的全微分方法。
神經網路能夠高效地從輸入數據中提取高階關聯資訊,相較於隨機特徵方法,神經網路在學習高階統計量方面展現出顯著的樣本複雜度優勢。
本文證明了完全遞迴神經網路,包括 RNN、LSTM、GRU 和線性遞迴網路,可以作為通用的上下文逼近器,透過適當的提示,它們可以逼近任何連續函數或離散序列映射。
LoRA-Ensemble 是一種針對自注意力網路的新型參數高效機率式集成方法,它通過使用低秩適配 (LoRA) 來調變預先訓練模型的注意力權重,從而實現高效的不確定性建模,並在準確性和校準方面優於傳統的顯式集成方法。
本文分析了使用梯度下降訓練的具有對角隱藏到隱藏權重矩陣的遞迴神經網路,並證明了梯度下降可以在沒有大量過度參數化的情況下實現最佳性能。
位置編碼不僅是 Transformer 模型的時間戳記,它還可以通過穩定遞迴神經網路的梯度來提高其處理大型詞彙的能力,特別是在處理低頻詞彙時。
本文證明,即使是單層、單注意力頭的解碼器唯一變換器模型,在合理的假設下也具有圖靈完備性,這意味著它們在理論上可以執行任何計算任務。
本文提出將非線性拋物型偏微分方程式推廣到神經網路領域,並論證其作為人工智慧基礎方程式的潛力,可以解釋深度神經網路的物理意義,並為類比計算設備設計和物理人工智慧發展鋪路。
本研究利用 Hopfield 模型模擬阿茲海默症患者的認知和生化層面病變,證明突觸退化、神經元死亡和代謝功能障礙如何共同導致認知功能的逐漸下降。
本文提出了一種利用圖神經網路計算隨機金融網路系統性風險度量的新方法,並探討了其在模擬金融傳染和優化資本配置方面的應用。