核心概念
LLMを使用して、言語と文化の特性を反映した質問回答データを生成することは可能であるが、その質は人間が生成したデータに及ばない。特に、リソースの少ない言語であるスンダ語では、LLMの性能が大幅に低下する。
要約
本研究では、インドネシア語とスンダ語の文化的に関連性のある常識的な質問回答データセットを作成した。データの生成には、既存の英語データの自動適応、人手による生成、LLMによる自動生成の3つの手法を用いた。
分析の結果、英語データからの自動適応は特にスンダ語では効果的ではないことが分かった。一方、GPT-4 Turboを使用して直接的に生成した場合、両言語において一定の基本的な知識を持つ質問を生成できることが示された。ただし、人手で生成したデータほど文化的な深みは備えていない。
LLMが生成したデータは人手で生成したデータに比べて質が低いが、リソースの少ない言語においてデータを効率的に作成する手段として活用できる可能性がある。ただし、LLMと人間の協力によりデータの品質を高めていくことが重要である。
統計
英語からインドネシア語への概念の適応では95.57%が正解だったが、インドネシア語からスンダ語への適応では77.22%に低下した。
インドネシア語のLLM_GENデータでは68.67%の質問が正しく生成されたのに対し、スンダ語では51.00%と大幅に低下した。
オプションの生成精度はインドネシア語のLLM_GENで93.00%、スンダ語で58.67%だった。