核心概念
大規模言語モデルは、英語指示に比べて中国語指示に対するコード生成能力が大幅に低下し、また異なるプログラミング言語間でも性能に大きな差がある。通訳を活用したプロンプティングや多言語データを用いた教師あり微調整により、このような多言語バイアスを大幅に軽減できることが示された。
要約
本研究は、大規模言語モデル(LCM)におけるコード生成タスクの多言語バイアスを調査した。
まず、英語と中国語の指示、およびPython、Java、C++の3つのプログラミング言語を含む多言語ベンチマーク「X-HumanEval-X」を構築した。これを用いて9つの人気LCMの性能を評価したところ、以下の2つの多言語バイアスが観察された:
-
多自然言語理解バイアス: 中国語指示を用いた場合、LCMのPass@1指標が少なくとも13%低下した。
-
多プログラミング言語生成バイアス: 同一の指示に対して、LCMのPython、Java、C++間の性能差が最大20.9%に達した。
次に、プロンプティング時の翻訳手法を検討した結果、一段階翻訳や多段階翻訳によって多自然言語バイアスを3.8%まで低減できることが分かった。一方、LCM自身による自己翻訳では性能が62.3%も低下した。
さらに、多言語データを用いた教師あり微調整を行ったところ、多自然言語バイアスを最大84%、多プログラミング言語バイアスを最大40%低減でき、コード生成性能も31-46%向上した。
以上の結果から、多言語データの活用と適切な訓練手法の選択が、LCMの多言語バイアス軽減と性能向上に有効であることが示された。
統計
中国語指示を用いた場合、LCMのPass@1指標が少なくとも13%低下した。
LCMのPython、Java、C++間の性能差が最大20.9%に達した。
一段階翻訳や多段階翻訳によって多自然言語バイアスを3.8%まで低減できた。
LCM自身による自己翻訳では性能が62.3%も低下した。
多言語データを用いた教師あり微調整により、多自然言語バイアスを最大84%、多プログラミング言語バイアスを最大40%低減できた。
教師あり微調整によりコード生成性能も31-46%向上した。
引用
"LCMは、英語指示に比べて中国語指示に対するコード生成能力が大幅に低下する明確な多言語バイアスを示す。"
"LCMのプログラミング言語間の性能差が最大20.9%に達する多言語バイアスが存在する。"
"一段階翻訳や多段階翻訳によって多自然言語バイアスを3.8%まで低減できる。"
"LCM自身による自己翻訳では性能が62.3%も低下する。"
"多言語データを用いた教師あり微調整により、多自然言語バイアスを最大84%、多プログラミング言語バイアスを最大40%低減できる。"
"教師あり微調整によりコード生成性能も31-46%向上する。"