本論文では、トークン拡張(ToE)と呼ばれる新しいトークン成長スキームを提案し、ビジョントランスフォーマー(ViT)の学習を効率的に高速化する。
提案手法の特徴は以下の通り:
"初期化-拡張-統合"パイプラインを導入し、オリジナルのトランスフォーマーの中間特徴分布の完全性を維持する。これにより、学習過程での重要な学習可能情報の損失を防ぐ。
最初の学習ステージでは少数のトークンを使用し、徐々にトークン数を増やすことで学習を高速化する。
特徴分布の広がりを最大化するトークン拡張と、特徴分布が近いトークンを統合するトークン統合を行うことで、中間特徴の完全性を保持する。
提案手法ToEは、トランスフォーマーの学習や微調整プロセスに容易に統合でき、元のモデルの学習ハイパーパラメータ、アーキテクチャ、学習戦略を変更することなく、高速化を実現できる。
実験の結果、ToEは、DeiTやLV-ViTなどの一般的なトランスフォーマーモデルの学習を1.3倍以上高速化でき、かつ元のモデルと同等以上の精度を達成できることを示した。さらに、効率的な学習フレームワークであるEfficientTrainとの組み合わせでも、精度向上と高速化を両立できることを確認した。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Wenxuan Huan... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00672.pdfสอบถามเพิ่มเติม