核心概念
本文旨在介紹 KIParla 語料庫,並說明其如何被用於創建第一個義大利語口語UD語料庫,以促進義大利語口語的語法研究和自然語言處理應用。
摘要
KIParla 語料庫簡介
本文介紹了 KIParla 語料庫,這是一個旨在捕捉義大利語口語多樣性的語料庫。該語料庫包含多種義大利語口語變體,並以人工方式轉錄,並與音頻文件對齊。KIParla 的主要創新之處在於其增量和模塊化的結構,允許隨著時間的推移添加新的語料庫模塊,重點關注語言變異和地理區域的不同維度。
KIParla 語料庫的應用
目前,尚無任何可用的義大利語 UD 語料庫明確涉及口語變體。本文提議基於 KIParla 語料庫構建第一個義大利語口語 UD 語料庫,並重點關注口語中特有的挑戰,例如:
- 識別特定於模式的現象
- 追踪要分配回相同語言現象的更多種類的非標準和創造性替代方案
- 處理不同類型的交互和語域
KIParla 語料庫的意義
KIParla 語料庫的建立將為研究義大利語口語的語法現象提供寶貴的資源,例如:
- 區域變異
- 標準語與非標準語
- 正式語與非正式語
- 社會方言變異
- 多語現象
語料庫構建的挑戰
構建 KIParla 語料庫也面臨著一些挑戰,例如:
- 如何處理語碼轉換現象
- 如何對口語進行句子分割
- 如何處理說話者重疊
未來研究方向
未來,KIParla 語料庫的開發團隊計劃:
- 添加更多來自不同語境的口語數據
- 開發更精確的口語標註指南
- 將 KIParla 語料庫與其他語言資源整合
統計資料
KIPoS 任務提供的數據集包含大約 200,000 個詞彙,這些詞彙來自 KIP 模塊,其中大約 30,000 個詞彙在通過 UDPipe 自動處理後經過了人工審閱和校正。
作者提議在 KIPoS 任務現有標註數據的基礎上,增加 30,000 個來自 KIPasti 模塊的新對話上下文的詞彙,從而計劃第一個版本包含大約 60,000 個詞彙。
引述
"目前,尚無任何可用的義大利語 UD 語料庫明確涉及口語變體。"
"KIParla 語料庫的建立將為研究義大利語口語的語法現象提供寶貴的資源,例如:區域變異、標準語與非標準語、正式語與非正式語、社會方言變異和多語現象。"