核心概念
大規模言語モデルのIn-Context Learningを活用し、わずかなサンプルから効率的にマルチリンガルの質問応答データセットを生成する手法を提案する。半教師あり学習アプローチを用いて高品質なデータを選別し、小規模モデルの性能を向上させる。
摘要
本研究では、大規模言語モデルのAlexaTM 20Bを使用して、わずか1つの例示を用いてIn-Context Learningによりヒンディー語とスペイン語の質問応答データを生成する手法を提案している。生成されたデータに対して半教師あり学習アプローチを適用し、高品質なデータを選別してXLM-R-Baseモデルの fine-tuning に使用する。この手法により、ヒンディー語とスペイン語の質問応答タスクにおいて、英語のみのデータを使用した場合と比較して大幅な性能向上が得られた。特に、機械翻訳を使用した手法よりも優れた結果を示している。本手法は、大規模言語モデルの fine-tuning を必要とせず、コスト効率的な開発プロセスを実現している。
統計資料
ヒンディー語の質問応答タスクでは、英語のみのデータを使用した場合と比較して5.05 F1/6.50 EMポイントの向上が得られた。
スペイン語の質問応答タスクでは、英語のみのデータを使用した場合と比較して3.81 F1/3.69 EMポイントの向上が得られた。
機械翻訳を使用した手法と比較して、ヒンディー語で0.22 F1/1.68 EM、スペイン語で0.82 F1/1.37 EMポイントの向上が得られた。
引述
"大規模言語モデルのIn-Context Learningを活用し、わずかなサンプルから効率的にマルチリンガルの質問応答データセットを生成する手法を提案する。"
"半教師あり学習アプローチを用いて高品質なデータを選別し、小規模モデルの性能を向上させる。"