核心概念
與基於 Transformer 的最先進方法相比,多模態大型語言模型(如 Gemini)在識別歷史文獻中的手寫文字方面展現出相當的準確性,尤其是在英語方面,儘管在非英語語言方面仍有提升空間。
摘要
論文概述
本研究論文評估了多模態大型語言模型 (LLM) Gemini 在識別歷史文獻手寫文字方面的準確性,並與當前最先進的基於 Transformer 的方法進行比較。
研究背景
- 大量歷史文獻僅以手寫形式存在,阻礙了計算文本分析方法的使用。
- 與印刷文字的光學字元識別 (OCR) 相比,手寫文字的 OCR 仍然是一項極具挑戰性的任務。
- 基於 Transformer 的模型在手寫識別方面取得了相對較好的性能,但它們嚴重依賴於人工轉錄的訓練數據,並且難以泛化到不同的書寫風格。
- 多模態 LLM,例如 GPT-4v 和 Gemini,在少量樣本提示下執行 OCR 和電腦視覺任務方面表現出有效性。
研究方法
- 本研究比較了 Gemini 與基於 CNN-BiLSTM 和 TrOCR 的最先進方法的準確性。
- 使用公開的多語言語料庫進行評估,包括來自 ICDAR 會議和 RODRIGO 數據集的歷史文獻。
- 評估了三種不同的 Gemini 提示策略:簡單提示、提供背景信息的提示和要求模型糾正拼寫和語法錯誤的提示。
研究結果
- Gemini 在轉錄英語手寫文字方面表現出與針對特定語料庫進行微調的最先進模型相當的準確性。
- 對於非英語語言,Gemini 的性能明顯較差,這表明 Gemini 的訓練數據集中英語佔主導地位可能會影響其在某些任務上的性能。
- 儘管 Gemini 的整體性能不如經過微調的 TrOCR 或 CNN,尤其是在非英語語言方面,但它在某些情況下可以產生高度準確的轉錄,這表明其具有潛在的能力。
結論與討論
- 對於沒有大量標註數據的項目,Gemini 和其他多模態 LLM 提供了一種潛在的更簡單的選擇,尤其是在轉錄英語手寫文字方面。
- 對於非英語語言,仍然需要使用經過訓練的神經網絡模型。
- 未來研究方向包括探索提示技術以提高 Gemini 在非英語語言上的性能,以及評估 TrOCR 在不同時期和語言的文本上的跨語料庫有效性。
統計資料
使用 ICDAR 2014 和 2017 Bentham 數據集中的 1,200 個英語樣本進行訓練和評估。
使用 ICDAR 2015 數據集中的 450 個德語文檔進行訓練和評估。
使用 ICDAR 2016 數據集中的 6,000 個德語和 4,000 個法語文檔進行訓練和評估。
對於每種語言,隨機抽取 30 和 500 個帶標註的頁面用於訓練/微調。
引述
"While OCR on print has achieved extremely high accuracy (outside of non-Latin types, low quality scanning, and unconventional page formatting) since the early 2000s, high accuracy handwriting OCR was essentially impossible until the adoption of image based convolutional neural networks in studies such as ([2])."
"Multimodal LLMs, such as GPT-4v [8], have displayed promising early ability to recognize text and tabular structure in images."
"There are no clear advantages to the state of the art trained models unless a sufficiently large in-domain annotated dataset is provided from the same language and time period."