核心概念
アラビア語固有の文化的特徴に適応した、アラビア語大規模言語モデルの開発
要約
本論文は、アラビア語固有の文化的特徴に適応した大規模言語モデル(LLM)の開発に取り組んでいる。
アラビア語LLMの開発では、文化的感受性と地域の価値観への配慮が重要な課題となる。
そのため、以下の包括的なソリューションを提案している:
アラビア語テキストによる事前学習の追加
ネイティブアラビア語命令を使った教師あり微調整
地域の文化と価値観に合わせた報酬モデルを用いた強化学習
これにより、アラビア語コミュニティの多様なニーズに対応できる、文化的に意識的で価値観に沿ったアラビア語LLMを育成することを目指している。
包括的な評価の結果、提案モデル「AceGPT」が、オープンソースのアラビア語LLMの中で最高水準の性能を示すことが明らかになった。
統計
アラビア語LLMの応答に含まれるアラビア語の人名の割合は、Jais-13Bが12.00%、GPT-3.5 Turboが26.67%に過ぎない。
一方、AceGPTでは人名の割合が50.00%と大幅に改善されている。
引用
"アラビア語LLMの開発では、文化的感受性と地域の価値観への配慮が重要な課題となる。"
"AceGPTは、オープンソースのアラビア語LLMの中で最高水準の性能を示す。"