この技術レポートは、GPT-4やLLaMAなどの大規模言語モデルが自然言語処理タスクで驚異的な能力を示し、視覚や音声など他のモダリティにも優れた成績を収め始めていることを指摘しています。しかし、低リソース言語ではトレーニングデータが非常に少ないため、オープンソースモデルでは特に苦労しています。この研究では、Amharicという言語を話す5,000万人以上の人々向けにLLaMA-2をトレーニングし、画像とテキストの両方を理解できる多モーダルAmharic LLMを作成します。さらに、Amharic版の人気ベンチマークデータセットを導入して作業を評価します。これらのモデルとデータセットはオープンソースでGitHubで利用可能です。
また、Amharicテキストは一般的な言語よりも稀少であるため、LLaMAトークナイザーはAmharicデータに適していません。そのため、SentencePieceを使用して新しいトークナイゼーションスキームを学習しました。さらに、公共ソースから436百万トークンとRed-Pajamaデータセットから3.348十億トークンの合計3784百万トークンから成る結合されたデータセットで事前訓練および微調整を行いました。
実験結果では、拡張されたデータセットで事前訓練された変種が小さいデータセットよりも性能が向上したことが示されています。ただし、数学や論理などいくつかのSTEM分野では基準値すら超えられず、法律や倫理など他の分野では基準値よりも優れていることが報告されています。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor