這篇研究論文介紹了紐倫堡信件簿數據集,這是一個用於文件分析的十五世紀早期手稿多重轉錄數據集。該數據集旨在解決歷史文件數位化和手寫文本識別領域的一個重大挑戰:如何彌合僅僅掃描古代手稿與真正理解和利用它們所呈現的內容之間的差距。
雖然數位化技術讓這些文本更容易取得,但它並沒有讓這些文本變得更容易理解或用於不同的研究目的。從實體文件到數位語料庫的轉換過程涉及許多複雜性,特別是在轉錄和解讀方面,這些方面會因研究領域和研究目標而有很大差異。例如,電腦科學家通常使用文件的基礎轉錄,這些轉錄是為訓練文本識別模型而量身定制的簡化版本。相比之下,德國研究需要盡可能接近原文的轉錄,以捕捉其視覺特徵和細微差別,這對於專注於語言和文化背景的研究至關重要。另一方面,歷史學家則傾向於使用正規化的文本版本,在這些版本中,縮寫會被解析,而像「 」這樣的特殊字符會被標準化,以符合當代讀者的閱讀習慣。這種方法有助於內容分析和解讀,使歷史文本更容易理解。這些正規化版本通常會被用於學術版本的製作。
紐倫堡信件簿說明了在文件分析中使用不同轉錄方法的重要性。從歷史上看,它們被用來記錄紐倫堡小議會發往其他城市和個人的信件。通信的主題從個別公民的日常經濟或法律事務到與國王或其他主要城市討論帝國政治,包羅萬象。一個跨學科的項目團隊合作研究了一些保存最古老的書籍。在這個項目中,四本連續的書籍都有三種類型的註釋,每一種註釋都是為了滿足不同研究領域的特定需求而量身定制的。基礎轉錄主要用於自動文本識別,並且通常是其他數據集中的默認選項。外交轉錄和正規化轉錄分別滿足了德國研究學者和歷史學家的需求。此外,該數據集還包括有關擴展縮寫的信息,以及作者 ID 和信件起點和終點等元數據。
該研究採用三階段方法創建數據集:
技術驗證表明,手寫文本識別和作者識別任務的結果都非常可靠且一致,這突出了數據集和驗證方法的穩健性。包含各種轉錄類型(基礎、外交和正規化)支持對歷史文件進行更細緻的分析,這對於需要高度忠實於原始來源的人文學科研究尤其有價值。通過對錯誤案例進行額外的手動檢查,該數據集非常適合作為開發更能滿足人文學者特定需求的方法的基礎。
未來的研究可以利用在這個數據集上訓練的模型,半自動地處理紐倫堡信件簿系列中的其他書籍,從而提高人文學者對這些豐富歷史內容的可訪問性,並使其能夠進行更深入的探索。此外,考慮到數據集的大小和可變性,文件分析專家可以研究大型語言模型和視覺語言模型的應用,以進一步推進對這類歷史數據的分析。
翻譯成其他語言
從原文內容
arxiv.org
深入探究