本文介紹了一種名為 AlphaTrans 的神經符號方法,用於自動化儲存庫級別的程式碼翻譯和驗證,該方法通過將程式分解成片段並按反向呼叫順序進行翻譯和驗證,有效地解決了程式碼翻譯過程中面臨的複雜性和規模問題。
CodeRosetta 是一種新型的編碼器-解碼器轉換器模型,專為在程式語言及其高效能運算 (HPC) 擴展之間進行翻譯而設計,透過創新的訓練目標和無監督學習方法,展現出優於現有方法的效能,並為 Fortran 到 C++ 等複雜翻譯任務開闢了新的可能性。
大型語言模型(LLM)在程式碼翻譯方面具有巨大潛力,但目前的模型在處理 Python 語言的翻譯任務時仍面臨挑戰,特別是在 Python 到其他語言的翻譯方向上。
程式碼翻譯面臨著平行訓練資料有限的挑戰,而利用可比語料庫和多重參考譯文進行資料增強,可以顯著提升程式碼翻譯模型的效能。