Core Concepts
大規模言語モデル、特にChatGPTのペルシャ語タスクにおける性能を包括的に評価し、その強みと弱点を明らかにする。
Abstract
本研究は、大規模言語モデル(LLM)のペルシャ語タスクにおける性能を包括的に評価しています。主な焦点はGPT-3.5-turboですが、より包括的な評価のためにGPT-4とOpenChat-3.5も含まれています。
評価対象のタスクは以下の3つのカテゴリに分類されます:
クラシックタスク: 感情分析、感情認識、固有表現抽出、読解、機械翻訳
推論タスク: 言語推論、数学・論理問題
知識タスク: 文学・一般常識に関する多肢選択問題
評価の結果、以下のような知見が得られました:
クラシックタスクでは、特化モデルがLLMを上回るが、推論タスクと感情分析ではLLMが優れる
LLMは一般知識を良く捉えるが、ペルシャ文学の知識は不足
多くのタスクでペルシャ語よりも英語のプロンプトの方が良い結果
GPT-4がGPT-3.5やOpenChat-3.5よりも全体的に優れた性能
OpenChat-3.5も多くのタスクでGPT-3.5に匹敵する良好な結果
これらの結果は、ペルシャ語におけるLLMの大きな可能性を示唆しています。特にペルシャ語の固有の文字セットや文体の多様性を考えると、興味深い知見と言えます。
Stats
感情分析タスクでは、GPT-4が英語プロンプトと3ショットの設定で最高のマクロF1スコア0.906を達成しました。
数学・論理問題の多肢選択問題では、GPT-4が英語プロンプトと3ショットの設定で最高の正答率0.725を記録しました。
一般常識の多肢選択問題では、GPT-4が英語プロンプトと3ショットの設定で最高の正答率0.635を示しました。