核心概念
本文介紹了兩種新的斯洛文語拼寫檢查器:基於大型詞彙表的傳統拼寫檢查器 SloSpell 和基於類神經網路的 SloNSpell,並通過實驗證明了 SloNSpell 在拼寫錯誤檢測方面的優越性。
統計資料
Sloleks 3.0 詞彙表包含 365,340 個詞條和 3,028,666 個詞形。
SloNSpell 訓練數據集包含 31,682,971 個單詞和 297,041 個句子。
在 Šolar-Eval 數據集上,SloNSpell 每秒處理約三個樣本,而 SloSpell 每秒處理約 250 個樣本。
引述
"Correct spelling enhances the clarity, effectiveness, comprehensibility, and consistency of written communication."
"Neural approaches typically perform better as they can learn complex text interactions and detect errors beyond misspelled words, e.g., words that should be split into two or merged into one."