Core Concepts
大規模な教師なしデータを利用して、テキスト認識器の自己教師学習による事前学習を行い、限定的な教師付きデータでも高性能なテキスト認識器を構築することができる。
Abstract
本論文では、テキスト認識タスクにおける自己教師学習の手法を調査している。具体的には、マスク予測を用いた手法(特徴量量子化、VQ-VAE、Post-Quantized AE)と、joint-embedding学習を用いた手法(VICReg、NT-Xent)を検討している。
マスク予測の手法では、大規模な教師なしデータから自動的にラベルを生成し、それを予測するモデルを学習する。joint-embedding学習の手法では、同じ入力画像の異なる拡張版を2つ用意し、それらの出力表現の類似性を最大化するように学習する。
さらに、joint-embedding学習の手法において、位置情報のみに依存しないよう、入力画像の位置をランダムにシフトさせる手法を提案している。
実験では、歴史的な手書きテキストと印刷テキストのデータセットを用いて評価を行っている。結果として、事前学習なしの転移学習が最も良い性能を示したが、提案手法のうちではVICRegとVQ-VAEベースのマスク予測が良好な結果を示した。一方で、手書きデータセットでは依然として大きな性能ギャップが存在し、今後の研究課題として示唆された。
Stats
手書きデータセットのテストセットにおける文字誤り率は3.30%が現状最高精度である。