核心概念
ビジョントランスフォーマーを用いた単純かつデータ効率的な手書き文字認識手法を提案し、従来手法を上回る性能を実現した。
摘要
本研究では、ビジョントランスフォーマー(ViT)をベースとした手書き文字認識手法を提案している。ViTは大規模データセットを必要とするが、手書き文字認識では十分な教師データが得られないことが課題となっていた。
提案手法では以下の3つの工夫を行っている:
- CNNによる特徴抽出: ViTのパッチ埋め込みの代わりにCNNを用いて特徴を抽出することで、安定した学習と高い性能を実現した。
- スパンマスク戦略: 入力トークンをランダムにマスクするのではなく、隣接するトークンをまとめてマスクすることで、過学習を抑制した。
- Sharpness-Aware Minimization(SAM)最適化: 平坦な損失関数の極小値を見つけることで、一般化性能を向上させた。
提案手法は、大規模データセットのLAMと小規模データセットのIAMやREAD2016において、従来手法を大きく上回る性能を示した。特に、事前学習やデータ拡張を一切使わずに、最先端の手法を凌駕する結果を得ている点が特筆される。
統計資料
手書き文字認識は文字置換、挿入、削除の合計が正解文字数に対して2.8%である。
単語誤り率は7.4%である。