核心概念
本文介紹了第一個公開的高棉場景文字資料集KhmerST,並探討了現有模型在處理低資源高棉文字識別任務上的局限性,呼籲更多針對高棉文字特點的模型和方法研究。
統計資料
KhmerST 資料集包含 1,544 張圖片,其中室內圖像 997 張,室外圖像 547 張。
該資料集的文字標註採用行級多邊形坐標。
針對文字檢測任務,資料集被劃分為 1,236 張訓練圖像和 308 張測試圖像。
針對文字識別任務,從原始圖像中裁剪出 3,463 張文字區域圖像,並以 2,851 張圖像用於訓練,712 張圖像用於測試。
YOLOv8 模型在文字檢測任務中取得了最佳性能,召回率達到 0.832,平均精度均值 (mAP) 為 0.899。
TrOCR 預訓練模型在文字識別任務中取得了相對較好的性能,字符錯誤率 (CER) 為 0.90,詞錯誤率 (WER) 為 1.02。
引述
"The novelty of the KhmerST dataset lies in its comprehensive approach to capturing the uniqueness of the Khmer script in diverse real-world scenarios."
"Unlike most existing datasets that primarily focus on Latin, Chinese, or Arabic scripts, KhmerST provides an essential resource for creating solutions finely tuned to the needs of the Cambodian population."
"These challenges can be attributed to the unique characteristics of the Khmer script, including its complex ligatures, varying baseline, and intricate diacritics."