核心概念
本文介紹了一個多語言影片字幕數據集,該數據集旨在支持多種語言的文字識別研究,特別關注從嵌入字幕的影片中準確轉錄文字的挑戰。
摘要
文獻類型
研究論文
書目信息
Singkhornart, T., & Surinta, O. (2024). Multi-language Video Subtitle Dataset for Image-based Text Recognition. Data in Brief, 51, 110818. https://doi.org/10.1016/j.dib.2024.110818
研究目標
本研究旨在創建一個包含多種語言文字的圖像數據集,用於訓練和評估圖像文字識別模型,特別關注從影片字幕中提取的文字。
方法
- 從 YouTube 和 Facebook 等線上平台收集包含嵌入字幕的影片。
- 每 5 秒擷取一次影片畫面,創建一個包含 4,224 張圖像的數據集。
- 使用 LabelImg 軟件手動標記字幕區域並生成相應的標籤。
- 開發一個 Python 程序,根據 XML 標籤信息提取字幕圖像和標籤。
主要發現
- 該數據集包含 4,224 張字幕圖像,涵蓋泰語、英語、泰語數字、阿拉伯數字和特殊字符,共計 157 個獨特字符。
- 圖像中的文字長度、字體和位置各不相同,有些出現在複雜的背景中,為文字識別帶來了挑戰。
- 該數據集已用於評估基於深度學習的文字識別模型,例如卷積神經網絡 (CNN) 和長短期記憶 (LSTM) 網絡。
主要結論
多語言影片字幕數據集為研究人員提供了一個有價值的資源,用於開發和評估圖像文字識別模型,特別是在處理多語言文字和複雜背景方面。
意義
該數據集有助於推進文字識別領域的研究,並可應用於各種領域,例如影片字幕生成、場景文字識別和文件分析。
局限性和未來研究
- 該數據集主要關注泰語和英語,未來可以擴展到更多語言。
- 數據集中的字幕主要來自影片底部,可以考慮包含其他位置的字幕,例如影片中間或屏幕側邊。
- 未來研究可以探索更先進的深度學習模型和技術,以進一步提高多語言影片字幕文字識別的準確性和效率。
統計資料
該數據集包含 4,224 張字幕圖像。
這些圖像提取自 24 個影片。
數據集中共有 157 個獨特字符。
超過 80 張字幕圖像包含 10 到 40 個字符。
最短的文字長度是一個字符,最長的文字長度約為 80 個字符。
引述
“Subtitles further assist audiences in learning the spelling of names, brands, acronyms, and abbreviations and understanding various accents.”
“It emphasizes the requirement for high-quality datasets that provide comprehensive data for developing deep learning models and enhancing text recognition systems.”