本研究では、ビジョントランスフォーマー(ViT)をベースとした手書き文字認識手法を提案している。ViTは大規模データセットを必要とするが、手書き文字認識では十分な教師データが得られないことが課題となっていた。
提案手法では以下の3つの工夫を行っている:
提案手法は、大規模データセットのLAMと小規模データセットのIAMやREAD2016において、従来手法を大きく上回る性能を示した。特に、事前学習やデータ拡張を一切使わずに、最先端の手法を凌駕する結果を得ている点が特筆される。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies