מושגי ליבה
ローマ字化を活用して、多言語言語モデルの性能を向上させる方法を提案します。
תקציר
この研究は、英語で主に訓練されたLLMの機能を他の言語に拡張するためにローマ字化を使用する方法を提案しています。ローマ字化は、英語と非ラテン文字で書かれた他の言語との間に橋渡しとなります。実験では、少数ショットプロンプティング、継続的事前トレーニング、およびさまざまなタスクでの指示チューニングが含まれています。また、ローマ字化データの使用は推論速度を向上させ、最大処理可能なシーケンス長を増やし、メモリ要件を2倍から4倍削減します。結果として、ローマ字化表現は効率的であり、ネイティブスクリプト表現と競合力があるかそれ以上のパフォーマンスを提供します。
סטטיסטיקה
ロマナイズされたテキストはネイティブテキストよりも2倍から4倍低い肥沃度であり、生成時間が短くなります。
ロマナイズされたテキストの埋め込みはネイティブスクリプトと比較して英語表現により近いです。
ロマナイズされたデータで多言語指示チューニングすることでタスクパフォーマンスが改善されます。
ציטוטים
"Our approach successfully unlocks LLM capabilities for non-English languages by using romanization to bridge English and non-English language representations."
"Romanized representations are significantly more efficient compared to native script representations."
"Romanized models are more efficient and better/comparable in task performance to native-script models."