本研究では、ビジョントランスフォーマーの学習効率を向上させるための新しい手法「LOTUS」を提案している。LOTUSは以下の3つの主要な要素から構成される:
データロトリーチケットの特定: 注意マップを使用して、最も情報的なデータパッチを選択することで、学習時間を短縮しつつ精度を維持する。
Instant Sparse Soup Pruning (ISSP)の適用: 特定したデータロトリーチケットに基づいて、モデルのスパース性プルーニングを行う。一段階目のプルーニングでは事前学習モデルの重要度を、二段階目のプルーニングではISPを使ってさらなる軽量化を図る。
プルーニングされたモデルの微調整: 残りのデータパッチを使ってモデルを微調整し、ベースラインモデルと同等以上の性能を達成する。
実験の結果、データロトリーチケットを活用したアプローチは急速な収束と高精度を示したが、ISSSアプローチでは精度が大幅に低下した。この精度低下の原因については、さらなる検討が必要である。全体として、データロトリーチケットの活用がビジョントランスフォーマーの効率的な学習に有効であることが示唆された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問