本文介紹了 NLIP_Lab-IITH 團隊為 WMT24 低資源印度語機器翻譯共享任務開發的系統,重點探討了利用預先訓練的模型 IndicRASP 和 IndicRASP Seed,並結合遷移學習、語言分組和層凍結等技術,以提高低資源印度語的翻譯品質。
對於低資源語言的機器翻譯任務,訓練大型語言模型時,大量的平行語料庫數據比數據多樣性更為重要。
針對低資源印尼語的機器翻譯, NusaMT-7B 模型透過單語預訓練、監督式微調、資料清理和反向翻譯等技術,顯著提升了翻譯品質,尤其是在翻譯成低資源語言(如巴厘語和米南佳保語)方面表現出色。