Concepts de base
深層LSTMを用いることで、Transformerの層間の情報統合を選択的に管理し、パフォーマンスの向上と収束性の確保を実現する。
Résumé
本論文では、Transformerの残差接続をDepth-wise LSTMに置き換えることを提案する。これにより、層間の表現の統合を選択的に管理できるようになり、パフォーマンスの向上と深層Transformerの収束性の確保が可能になる。
具体的には以下の通り:
- Depth-wise LSTMを用いて、Transformerの自注意、クロス注意、マスク自注意の各サブ層を接続する。これにより、単純な残差接続では失われがちな遠隔層の情報を効果的に融合できる。
- Transformerの層正規化とフィードフォワード計算をDepth-wise LSTMに吸収することで、パラメータ数の増加を抑えつつ、非線形性を維持できる。
- WMT 14 En-De/En-Frタスクと大規模多言語NMTタスクOPUS-100で実験を行い、6層Transformerでの大幅なBLEU改善と、深層Transformerでの収束性の確保を示した。
Stats
6層TransformerベースラインのBLEUは27.55であるのに対し、提案手法では28.53まで改善された。
12層TransformerベースラインのBLEUは29.02であるのに対し、提案手法では29.26まで改善された。
OPUS-100多言語NMTタスクでは、提案手法がベースラインに比べ、En→xxで+2.57 BLEU、xx→Enで+1.19 BLEUの改善を示した。
Citations
"Stacking non-linear layers allows deep neural networks to model complicated functions, and including residual connections in Transformer layers is beneficial for convergence and performance."
"However, residual connections may make the model "forget" distant layers and fail to fuse information from previous layers effectively."
"LSTMs (Hochreiter and Schmidhuber, 1997) have been shown to (i) avoid gradient explosion and vanishing, (ii) selectively learn what to remember and what to forget while ensuring convergence."