核心概念
本文提出了一種分步翻譯方法,通過模擬人類翻譯過程中的預翻譯研究、起草、修改和校對等步驟,以逐步提高長篇文本的翻譯質量。
摘要
本文提出了一種分步翻譯方法,旨在提高長篇文本的翻譯質量。該方法模擬了人類翻譯過程中的四個主要步驟:
-
預翻譯研究階段:模型分析源文本,識別可能存在翻譯挑戰的短語,並解釋如何在目標語言中進行翻譯。
-
起草階段:模型基於預翻譯研究的結果,忠實地將源文本翻譯為目標語言。
-
修改階段:模型進一步修改初步翻譯,提高其流暢性和自然性。
-
校對階段:模型對修改後的翻譯進行最終校對,確保翻譯質量。
作者在10種語言對的WMT 2023和WMT 2024數據集上進行了大規模自動評估,結果顯示,分步翻譯方法在所有語言和測試集上都優於直接零射翻譯。與利用非參數知識進行最佳翻譯選擇的方法以及採用分段翻譯的基線相比,分步翻譯方法也取得了顯著的改進。這些結果表明,利用語言模型模擬人類翻譯過程的潛力,超越了傳統的機器翻譯視角。
統計資料
分步翻譯方法在WMT 2024測試集上的MetricX-23參考基準評分優於零射翻譯,平均提高0.84分。
分步翻譯方法在WMT 2024測試集上的MetricX-23質量估計評分優於零射翻譯,平均提高0.78分。
分步翻譯方法在WMT 2024測試集上的表現優於當前最佳系統Unbabel-Tower70B,在德語和日語方向分別提高0.15分和0.43分。
引述
"本文提出了一種分步翻譯方法,通過模擬人類翻譯過程中的預翻譯研究、起草、修改和校對等步驟,以逐步提高長篇文本的翻譯質量。"
"作者在10種語言對的WMT 2023和WMT 2024數據集上進行了大規模自動評估,結果顯示,分步翻譯方法在所有語言和測試集上都優於直接零射翻譯。"
"這些結果表明,利用語言模型模擬人類翻譯過程的潛力,超越了傳統的機器翻譯視角。"