toplogo
登入

KhmerST:一個用於低資源高棉場景文字檢測和識別的基準測試資料集


核心概念
本文介紹了第一個公開的高棉場景文字資料集KhmerST,並探討了現有模型在處理低資源高棉文字識別任務上的局限性,呼籲更多針對高棉文字特點的模型和方法研究。
摘要

KhmerST 資料集簡介

  • KhmerST 是第一個專為推動高棉文字計算機視覺研究而設計的場景文字資料集。
  • 該資料集包含在柬埔寨各地拍攝的大量圖片,涵蓋街道、招牌、超市和商業機構等場景,所有圖片都包含以高棉文撰寫的文字。
  • 與現有的基準測試資料集相比,KhmerST 資料集的獨特貢獻在於它是第一個針對高棉語的場景文字資料集,現有資料集僅包含高棉印刷文字、歷史手寫 Sleuk-Rith 資料集、掃描書籍、合成文件、合成場景文字、KHOB 和身份證。
  • KhmerST 資料集至關重要,因為它提供了真實世界的場景,展示了該語言在日常環境中的使用方式,這對於開發強大和準確的文字識別模型至關重要。
  • 它解決了自然場景圖像中常見的挑戰,例如不同的光照條件、字體樣式和背景雜訊。
  • 與其他資料集不同,KhmerST 資料集捕捉了真實世界的環境,這對於訓練模型以處理各種實際情況至關重要。
  • 此外,它還包括合成資料集中不存在的各種文字外觀和設置,使其成為 OCR 開發的更全面、更具挑戰性的資源。

圖像選擇

  • 為了創建 KhmerST 資料集,我們在柬埔寨進行了數據收集,共收集了 1,544 張圖片。
  • 這些圖片來自於各種地點,以確保廣泛的場景代表性。
  • 我們使用四種不同的智慧型手機型號來收集數據:三星 Galaxy A32、iPhone 8 Plus、iPhone 13 Pro Max 和 iPhone 14 Pro Max。
  • 設備的多樣性有助於捕捉不同光照條件和相機功能下的圖像,增強了資料集的穩健性。
  • KhmerST 資料集分為兩大類:室內和室外圖像。
  • 室內圖像的文字來自於超市等商業環境,而室外圖像則包括街道、招牌和公共建築的文字。
  • 字體樣式的多樣性和文字呈現方式的不同(例如直線、旋轉和彎曲文字)確保了該資料集可用於開發強大的文字檢測和識別模型,以應對各種現實生活條件。

資料集標註

  • 使用 VGG Image Annotator (VIA) 進行標註過程。
  • 該標註器允許使用多邊形坐標定義每個圖像內的區域,通過指定 x 軸和 y 軸上的頂點來有效地描繪複雜形狀。
  • 這些註釋對於精確的目標檢測和特定區域分析至關重要。
  • 每個圖像的數據(包括其註釋)都以 JSON 格式構建,提供了清晰、分層的屬性表示。
  • 在我們的 JSON 結構中,每個多邊形的坐標都由 x 和 y 點數組表示,例如 "all_points_x": [x1, x2, x3, x4] 和 "all_points_y": [y1, y2, y3, y4]。
  • 這種資料集格式使用與行級文字相關聯的多邊形來描述圖像中的文字區域,而不是矩形坐標,因為多邊形可以適應文字的顯示方式(例如旋轉文字)。
  • 這種方法可以適應文字旋轉和輪廓,提高識別精度。
  • JSON 條目還包括必要的元數據,例如圖像文件名和大小,以增強資料集在訓練和評估機器學習模型(特別是高棉文字識別)方面的效用。

資料集拆分

  • 我們將 KhmerST 資料集分為訓練集和測試集,用於文字檢測任務,將 1,544 張圖像中的 80% 分配給訓練集,20% 分配給測試集。
  • 這種劃分產生了 1,236 張訓練圖像和 308 張測試圖像,結合了室外和室內類別,以增強多樣性和挑戰性。
  • KhmerST 資料集與圖像和包含詳細文字信息的 JSON 文件配對。
  • 對於文字識別任務,我們從所有圖像中裁剪出文字區域,總共產生了 3,463 張裁剪圖像。
  • 我們應用了相同的 80/20 劃分,產生了 2,851 張訓練圖像和 712 張測試圖像。
  • 這種系統的劃分確保了對檢測和識別任務的穩健評估框架。

基線模型和評估指標

  • 本文使用了增強的 YOLOv1、預訓練的 YOLOv5、YOLOv8 和 YOLOv10 模型進行文字檢測任務,並使用 TrOCR 預訓練模型和 Tesseract 工具進行文字識別任務。
  • 評估指標包括 Intersection over Union (IOU)、Detection Rate (DR)、Recognition Accuracy (RA)、F-measure (FM)、Character Error Rate (CER) 和 Word Error Rate (WER)。

局限性

  • 由於 KhmerST 資料集的規模有限,訓練 TrOCR 模型導致了過度擬合。
  • 此外,較大的模型規模導致計算需求增加,使其在資源有限的環境中不太可行。
  • 另一方面,Tesseract OCR 是一種開源光學字符識別引擎,在英語、印地語和中文等資源豐富的語言中表現良好。
  • 然而,對於資源匱乏的高棉語,Tesseract OCR 的性能並不理想。

總結

  • 本研究工作介紹了 KhmerST 資料集,這是第一個針對高棉語的場景文字資料集,包含約 1,544 張圖像。
  • 該資料集分為兩大類:室內 997 張圖像和室外 547 張圖像。
  • 我們在行級對場景圖像中的文字進行了註釋,並將坐標存儲為多邊形。
  • 該資料集是通過拍攝具有各種字體、文字大小和背景的真實圖像收集的。
  • 這些對文字檢測和識別系統提出了重大挑戰。
  • 我們相信我們的資料集將成為改進 OCR 和推進高棉 STDR 研究的重要資源。
  • 除了資料集之外,我們還製作了一個文字檢測和識別基準測試,並討論了當前最先進模型在 KhmerST 資料集上的性能局限性。
  • 為了處理如此具有挑戰性的資料集,STDR 需要不同的模型,這些模型可以處理高棉文字的獨特特徵以及文字出現的各種條件。

未來研究方向

  • 未來的研究將集中在以下幾個方面:(1) 使用更多樣化的圖像和文字樣式擴展資料集,為研究社區提供全面的資源。此外,生成合成數據將擴充現有的 KhmerST 資料集,克服其規模限制;(2) 開發專門針對高棉文字複雜性的架構,旨在通過結合特定的語言和印刷特徵來提高檢測和識別的準確性;(3) 強調整合視覺和文字數據的多模態方法將進一步完善文字識別能力,特別是在消除複雜文字場景的歧義方面。這些未來貢獻領域對於推進自然圖像中的高棉 STDR 至關重要,確保 OCR 模型能夠有效地管理這種低資源語言的複雜性和變化。
edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
KhmerST 資料集包含 1,544 張圖片,其中室內圖像 997 張,室外圖像 547 張。 該資料集的文字標註採用行級多邊形坐標。 針對文字檢測任務,資料集被劃分為 1,236 張訓練圖像和 308 張測試圖像。 針對文字識別任務,從原始圖像中裁剪出 3,463 張文字區域圖像,並以 2,851 張圖像用於訓練,712 張圖像用於測試。 YOLOv8 模型在文字檢測任務中取得了最佳性能,召回率達到 0.832,平均精度均值 (mAP) 為 0.899。 TrOCR 預訓練模型在文字識別任務中取得了相對較好的性能,字符錯誤率 (CER) 為 0.90,詞錯誤率 (WER) 為 1.02。
引述
"The novelty of the KhmerST dataset lies in its comprehensive approach to capturing the uniqueness of the Khmer script in diverse real-world scenarios." "Unlike most existing datasets that primarily focus on Latin, Chinese, or Arabic scripts, KhmerST provides an essential resource for creating solutions finely tuned to the needs of the Cambodian population." "These challenges can be attributed to the unique characteristics of the Khmer script, including its complex ligatures, varying baseline, and intricate diacritics."

深入探究

如何利用遷移學習或其他技術來克服 KhmerST 資料集規模有限的問題,從而提高高棉場景文字識別模型的性能?

克服 KhmerST 資料集規模有限的問題,可以採用以下策略來提高高棉場景文字識別模型的性能: 1. 迁移学习: 利用已有的場景文字識別模型: 可以使用在其他大型資料集(如英文或中文場景文字資料集)上預先訓練好的場景文字識別模型(如 CRNN, Aster, TrOCR 等)作為起始點,然後使用 KhmerST 資料集進行微調。由於這些模型已經學習了文字的一般特徵,因此可以減少對 KhmerST 資料量的需求。 利用其他高棉文字資料集: 可以使用其他類型的高棉文字資料集(如印刷體資料集、手寫體資料集等)來進行預訓練,然後再使用 KhmerST 資料集進行微調。 使用多語言預訓練模型: 可以使用在多種語言上預先訓練好的模型,這些模型通常具有更好的泛化能力,可以更好地適應低資源語言。 2. 資料增強: 傳統圖像增強: 可以使用旋轉、縮放、平移、添加噪聲等傳統圖像增強技術來擴充 KhmerST 資料集。 基於深度學習的資料增強: 可以使用生成對抗網絡 (GAN) 或變分自编码器 (VAE) 等深度學習模型來生成新的高棉場景文字圖像。 字元級別增強: 可以對 KhmerST 資料集中的文字進行字元級別的增強,例如替換字體、調整字元間距等。 3. 其他技術: 半監督學習: 可以使用半監督學習方法,利用未標記的高棉場景文字圖像來提高模型的性能。 主動學習: 可以使用主動學習方法,選擇最有價值的未標記圖像進行標記,從而更有效地利用有限的標記資源。

是否可以設計一種結合了卷積神經網絡 (CNN) 和 Transformer 的混合模型,以更好地捕捉高棉文字的圖像特徵和上下文信息,從而提高識別精度?

是的,設計一種結合了卷積神經網絡 (CNN) 和 Transformer 的混合模型,可以有效提高高棉場景文字識別的精度。 CNN 擅長提取圖像的局部特徵,而 Transformer 擅長捕捉序列數據的長距離依賴關係。 因此,結合兩者的優勢,可以設計出更强大的場景文字識別模型。 以下是一種可能的混合模型架構: 使用 CNN 提取圖像特徵: 首先使用 CNN (如 ResNet, EfficientNet 等) 提取輸入圖像的多層級特徵。 將特徵圖轉換為序列數據: 將 CNN 提取到的特徵圖轉換為序列數據,例如可以將特徵圖按行或按列展平。 使用 Transformer 捕捉上下文信息: 使用 Transformer 編碼器對序列化的特徵進行處理,捕捉高棉文字的上下文信息,例如字元之間的相互關係、位置信息等。 使用解碼器生成文字序列: 使用 Transformer 解碼器或其他解碼器(如 RNN 解碼器)將編碼後的特徵解碼為高棉文字序列。 這種混合模型可以有效地捕捉高棉文字的圖像特徵和上下文信息,從而提高識別精度。

KhmerST 資料集的發布對於推動柬埔寨語音識別、機器翻譯等相關領域的發展有何潛在影響?

KhmerST 資料集的發布對推動柬埔寨語音識別、機器翻譯等相關領域的發展具有重要的潛在影響: 1. 語音識別: 提供數據基礎: KhmerST 資料集可以為基於端到端深度學習的語音識別模型提供重要的數據基礎,特別是針對包含文字的場景,例如語音轉寫會議記錄、電視節目字幕等。 促進模型訓練: 通過使用 KhmerST 資料集進行訓練,可以提高語音識別模型對高棉語的識別精度,尤其是在包含場景文字的複雜環境中。 2. 機器翻譯: 提升翻譯質量: KhmerST 資料集可以作為訓練數據,用於提升高棉語和其他語言之間的機器翻譯質量,特別是在涉及場景文字的翻譯任務中,例如翻譯路牌、菜單等。 擴展應用場景: 高精度的高棉語場景文字識別技術可以擴展機器翻譯的應用場景,例如開發實時翻譯眼鏡、手機應用等,方便人們在旅行、交流等場景中克服語言障礙。 3. 其他相關領域: 光學字元識別 (OCR): KhmerST 資料集的發布可以直接促進高棉語 OCR 技術的發展,推動開發更準確、高效的 OCR 系統。 文字檢索: KhmerST 資料集可以用于訓練高棉語文字檢索模型,提高從圖像中檢索文字信息的效率。 場景理解: 高棉語場景文字識別技術可以作為場景理解的重要組成部分,幫助計算機更好地理解圖像内容。 總之,KhmerST 資料集的發布為高棉語自然語言處理領域的研究提供了重要的數據資源,將促進高棉語语音识别、机器翻译等相关技术的进步,并推动相关应用的落地。
0
star