本研究では、コンフォーマーエンコーダーを使ったAttention-based Encoder-Decoder (AED)モデルにおいて、時間次元が反転する現象を観察し、その原因と回避方法を分析した。
初期の学習段階では、デコーダーの注意機構が最初の数フレームにのみ集中する傾向がある。これは、最初のフレームが特徴が明確であるためと考えられる。しかし、次第に注意が最後のフレームに移り、最終的には時間次元が反転してしまう。
この反転は、コンフォーマーブロック内の自己注意機構が最終的に支配的になり、前のフィードフォワード層からの情報を通さなくなるために起こる。
この問題を回避するために、以下の方法を提案した:
また、入力フレームに対するラベルの対数確率勾配を使って、入力フレームとラベルの位置合わせを推定する新しい手法を提案した。この手法は、エンコーダーが時間次元を反転させた場合でも有効に機能する。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Robi... kl. arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00680.pdfDybere Forespørgsler