本研究では、ビジョントランスフォーマー(ViT)をベースとした手書き文字認識手法を提案している。ViTは大規模データセットを必要とするが、手書き文字認識では十分な教師データが得られないことが課題となっていた。
提案手法では以下の3つの工夫を行っている:
提案手法は、大規模データセットのLAMと小規模データセットのIAMやREAD2016において、従来手法を大きく上回る性能を示した。特に、事前学習やデータ拡張を一切使わずに、最先端の手法を凌駕する結果を得ている点が特筆される。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yuting Li, D... : arxiv.org 09-16-2024
https://arxiv.org/pdf/2409.08573.pdfDaha Derin Sorular