本研究は、大規模言語モデル(LCM)におけるコード生成タスクの多言語バイアスを調査した。
まず、英語と中国語の指示、およびPython、Java、C++の3つのプログラミング言語を含む多言語ベンチマーク「X-HumanEval-X」を構築した。これを用いて9つの人気LCMの性能を評価したところ、以下の2つの多言語バイアスが観察された:
多自然言語理解バイアス: 中国語指示を用いた場合、LCMのPass@1指標が少なくとも13%低下した。
多プログラミング言語生成バイアス: 同一の指示に対して、LCMのPython、Java、C++間の性能差が最大20.9%に達した。
次に、プロンプティング時の翻訳手法を検討した結果、一段階翻訳や多段階翻訳によって多自然言語バイアスを3.8%まで低減できることが分かった。一方、LCM自身による自己翻訳では性能が62.3%も低下した。
さらに、多言語データを用いた教師あり微調整を行ったところ、多自然言語バイアスを最大84%、多プログラミング言語バイアスを最大40%低減でき、コード生成性能も31-46%向上した。
以上の結果から、多言語データの活用と適切な訓練手法の選択が、LCMの多言語バイアス軽減と性能向上に有効であることが示された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Chaozheng Wa... kl. arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19368.pdfDybere Forespørgsler