核心概念
使用合成數據訓練語言模型可以顯著提高其修正光學字符識別錯誤的能力。
摘要
本文探討了使用合成數據訓練語言模型進行光學字符識別錯誤修正的方法。主要發現如下:
使用合成數據訓練的語言模型可以將字符錯誤率降低55%,單詞錯誤率降低32%,優於使用真實數據訓練的模型。
訓練數據的錯誤程度對模型性能有重要影響。過度腐蝕的數據不如適度腐蝕的數據效果好。非均勻字符級別的腐蝕優於均勻腐蝕。
每個觀察值的token數量多於觀察值數量多的效果更好。
與使用真實數據訓練的模型相比,使用合成數據訓練的模型在修正光學字符識別錯誤方面表現更優異。
提出了8條訓練有效CLOCR-C模型的啟發式原則,以及一個用於創建合成腐蝕數據的python庫scrambledtext。
統計資料
使用合成數據訓練的模型可將字符錯誤率降低55%。
使用合成數據訓練的模型可將單詞錯誤率降低32%。