Core Concepts
大規模言語モデルの翻訳能力を向上させるための新しいパラダイムを提案する。
Abstract
Huawei Translation Services Centerによる大規模言語モデル(LLMs)の翻訳能力向上に関する研究。
3つの段階からなる新しいパラダイム:第2次事前学習、連続的事前学習、ソース言語一貫した指示を活用した監督された微調整。
LLMsのクロスリンガルアラインメント能力を強化することが重要であることが強調されている。
少量の高品質なバイリンガルデータを使用してLLMsの性能を改善する方法が提案されている。
Introduction
大規模言語モデル(LLMs)における機械翻訳(MT)タスクにおける研究。
研究は3つの段階から成り立っており、それぞれ異なる戦略や手法が紹介されている。
Experiments
データセットと評価メトリクスに関する情報が記載されている。
実験結果はBLEUスコアやCOMETスコアで示され、提案手法が他の先行研究や最先端モデルよりも優れた性能を示していることが明らかになっている。
Ablation Study: What if we directly employ a large quantity of translation data for SFT?
Stage 3で大量の翻訳データを直接使用した場合、SFT(監督された微調整)にどのような影響があるかについて検討されている。
結果は異なるStage 3データサイズで示され、少量でも高品質なデータがSFT段階で効果的であることが示唆されている。
Stats
提案手法は他の先行研究や最先端モデルよりも優れた性能を示しています。
Quotes
"我々は、LLMsのクロスリンガルアラインメント能力を強化することが重要だと主張しています。"
"小さな高品質なバイリンガルデータを使用することで、LLMsの性能向上に焦点を当てます。"