本研究では、コンフォーマーエンコーダーを使ったAttention-based Encoder-Decoder (AED)モデルにおいて、時間次元が反転する現象を観察し、その原因と回避方法を分析した。
初期の学習段階では、デコーダーの注意機構が最初の数フレームにのみ集中する傾向がある。これは、最初のフレームが特徴が明確であるためと考えられる。しかし、次第に注意が最後のフレームに移り、最終的には時間次元が反転してしまう。
この反転は、コンフォーマーブロック内の自己注意機構が最終的に支配的になり、前のフィードフォワード層からの情報を通さなくなるために起こる。
この問題を回避するために、以下の方法を提案した:
また、入力フレームに対するラベルの対数確率勾配を使って、入力フレームとラベルの位置合わせを推定する新しい手法を提案した。この手法は、エンコーダーが時間次元を反転させた場合でも有効に機能する。
To Another Language
from source content
arxiv.org
Głębsze pytania