Centrala begrepp
本文證明,即使是單層、單注意力頭的解碼器唯一變換器模型,在合理的假設下也具有圖靈完備性,這意味著它們在理論上可以執行任何計算任務。
Statistik
模型維度必須滿足 dmodel > dembed,其中 dmodel 是模型維度,dembed 是詞嵌入維度。
為了模擬 RNN,模型維度必須至少是詞嵌入維度的兩倍,即 dmodel ≥ 2 * dembed。
Citat
"基於我們的結果,我們認為解碼器唯一的架構不一定需要通常分配的大量參數來執行支持複雜 NLP 功能所需的計算。相反,參數的數量可能是由語言建模任務和架構之間的交互作用所必需的。這表明,較小的架構調整可以允許未來出現更參數高效的模型。"