Morita, T. (2024). Positional Encoding Helps Recurrent Neural Networks Handle a Large Vocabulary. arXiv preprint arXiv:2402.00236v4.
本研究旨在探討位置編碼對遞迴神經網路處理大型詞彙能力的影響。
本研究採用單層 GRU 和 LSTM 模型,並結合輸入嵌入層和輸出投影層,同時也研究了神經狀態空間模型 S4D。研究人員設計了一個反向排序任務,要求模型將隨機整數序列反向重建。他們比較了使用和不使用位置編碼的模型在不同詞彙量下的性能表現,並分析了模型梯度的穩定性。
位置編碼不僅可以作為 Transformer 模型的時間戳記,還可以通過穩定遞迴神經網路的梯度來提高其處理大型詞彙的能力,特別是在處理低頻詞彙時。
本研究揭示了位置編碼的新功能,並為遞迴神經網路處理大型詞彙提供了一種有效的解決方案。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Takashi Mori... pada arxiv.org 10-11-2024
https://arxiv.org/pdf/2402.00236.pdfPertanyaan yang Lebih Dalam