Core Concepts
パラメータ効率の高い微調整手法であるDLoRAを用いて、変換器ベースのTrOCRモデルを複雑な環境下の混合テキスト認識に適応させることで、優れた性能を実現した。
Abstract
本研究は、複雑なシーンにおける混合テキスト(手書き、印刷、街頭)の光学文字認識(OCR)に取り組んでいる。従来のOCRモデルは、特定のドメインや類似したデータセットでは良好な性能を示すものの、一般化性と堅牢性に課題があった。また、モデルを頭から学習するか、全パラメータを微調整するアプローチでは、計算リソースと推論時間が大きな制約となっていた。
本研究では、事前学習済みのTrOCRモデルをベースに、パラメータ効率の高い微調整手法であるDLoRA(DoRA+LoRA)を適用することで、優れた性能と効率性を両立した。具体的には、DoRAを画像エンコーダに、LoRAをテキストデコーダに適用し、少ないパラメータ数で複雑な混合テキスト環境に適応できるようにした。
実験の結果、提案手法DLoRA-TrOCRは、同様のパラメータ調整手法と比較して最小のパラメータ数を持ちながら、優れた性能を発揮した。特に、手書き、印刷、街頭ビューの混在するデータセットにおいて、最先端の性能を達成した。
Stats
手書きデータセットIAMの訓練セットは747フォームの6,842行、テストセットは336フォームの2,915行
印刷データセットSROIEの訓練セットは10,682行、テストセットは6,897行
街頭テキストデータセットの訓練セットは7,573行、テストセットは11,435行
Quotes
"パラメータ効率の高い微調整手法であるDLoRAを用いて、変換器ベースのTrOCRモデルを複雑な環境下の混合テキスト認識に適応させることで、優れた性能を実現した。"
"提案手法DLoRA-TrOCRは、同様のパラメータ調整手法と比較して最小のパラメータ数を持ちながら、優れた性能を発揮した。"