Grunnleggende konsepter
本文介紹了 NLIP_Lab-IITH 團隊為 WMT24 低資源印度語機器翻譯共享任務開發的系統,重點探討了利用預先訓練的模型 IndicRASP 和 IndicRASP Seed,並結合遷移學習、語言分組和層凍結等技術,以提高低資源印度語的翻譯品質。
Sammendrag
論文概述
本文介紹了印度海德拉巴印度理工學院自然語言和信息處理實驗室 (NLIP_Lab-IITH) 團隊為 WMT24 低資源印度語機器翻譯共享任務開發的系統。該系統專注於英語與四種印度語(阿薩姆語、卡西語、米佐語和曼尼普爾語)之間的翻譯。
主要內容
研究背景
低資源語言的機器翻譯一直是一個挑戰,因為缺乏足夠的平行語料庫數據進行有效訓練。近年來,多語言訓練和遷移學習等技術的進展為低資源語言的機器翻譯帶來了新的希望。
數據集
本研究使用了 IndicMT 共享任務提供的 IndicNECorp1.0 數據集,其中包括英語與阿薩姆語、卡西語、米佐語和曼尼普爾語之間的雙語平行語料庫,以及四種印度語的單語數據。
方法
該團隊採用了遷移學習、語言分組和層凍結等技術來提高翻譯質量。
- 遷移學習: 使用預先訓練的模型 IndicRASP 和 IndicRASP Seed 作為基礎,並在共享任務數據集上進行微調。
- 語言分組: 根據文字相似性將語言分組,例如將使用孟加拉文字的阿薩姆語和曼尼普爾語分為一組,使用拉丁文字的卡西語和米佐語分為一組。
- 層凍結: 在微調過程中凍結預先訓練模型的某些層,例如編碼器或嵌入層,以保留預先訓練的知識。
結果與討論
實驗結果表明,使用 IndicRASP 和 IndicRASP Seed 預先訓練模型可以顯著提高低資源印度語的翻譯質量。此外,語言分組和層凍結等技術也能進一步提升翻譯性能。
主要貢獻
- 探索了基於對齊增強的預先訓練模型 IndicRASP 和 IndicRASP Seed 在低資源印度語機器翻譯中的應用。
- 實驗驗證了遷移學習、語言分組和層凍結等技術在提高低資源語言翻譯質量方面的有效性。
局限性
- 預先訓練模型使用的雙語詞典可能與共享任務訓練語料庫的領域不同。
- 所考慮的預先訓練模型僅涵蓋有限數量的共享任務語言。
- 本次提交的系統沒有利用提供的單語數據,而單語數據可以通過反向翻譯進一步提高模型性能。
未來方向
- 進一步完善語言分組和層凍結等技術。
- 利用單語數據通過反向翻譯等方法進一步提高翻譯性能。
Statistikk
英語-阿薩姆語和英語-米佐語訓練集各包含 5 萬個平行句子。
英語-卡西語和英語-曼尼普爾語訓練集分別包含 2.4 萬和 2.16 萬個平行句子。
阿薩姆語單語數據約為 260 萬個句子。
卡西語單語數據約為 10 萬個句子。
米佐語單語數據約為 200 萬個句子。
曼尼普爾語單語數據約為 100 萬個句子。
在英語到阿薩姆語的翻譯任務中,雙語模型比多語言模型的 chrF2 分數提高了 4.1。
在英語到卡西語的翻譯任務中,雙語模型比多語言模型的 chrF2 分數提高了 7.7。
使用多語言模型權重初始化的雙語模型在英語到卡西語的翻譯任務中,chrF2 分數提高了 7.8。
基於文字相似性的語言分組在英語到阿薩姆語、卡西語、米佐語和曼尼普爾語的翻譯任務中,chrF2 分數分別提高了 1.6、0.3、3.3 和 1.4。