toplogo
Войти

Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages


Основные понятия
低リソース言語のための多モーダルLLMを開発するための方法を探る。
Аннотация

この技術レポートは、GPT-4やLLaMAなどの大規模言語モデルが自然言語処理タスクで驚異的な能力を示し、視覚や音声など他のモダリティにも優れた成績を収め始めていることを指摘しています。しかし、低リソース言語ではトレーニングデータが非常に少ないため、オープンソースモデルでは特に苦労しています。この研究では、Amharicという言語を話す5,000万人以上の人々向けにLLaMA-2をトレーニングし、画像とテキストの両方を理解できる多モーダルAmharic LLMを作成します。さらに、Amharic版の人気ベンチマークデータセットを導入して作業を評価します。これらのモデルとデータセットはオープンソースでGitHubで利用可能です。

また、Amharicテキストは一般的な言語よりも稀少であるため、LLaMAトークナイザーはAmharicデータに適していません。そのため、SentencePieceを使用して新しいトークナイゼーションスキームを学習しました。さらに、公共ソースから436百万トークンとRed-Pajamaデータセットから3.348十億トークンの合計3784百万トークンから成る結合されたデータセットで事前訓練および微調整を行いました。

実験結果では、拡張されたデータセットで事前訓練された変種が小さいデータセットよりも性能が向上したことが示されています。ただし、数学や論理などいくつかのSTEM分野では基準値すら超えられず、法律や倫理など他の分野では基準値よりも優れていることが報告されています。

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

Статистика
Amharicは5,000万人以上に話される言語です。 CommonCrawl内のAmharicコンテンツは0.1%未満です。 結合されたデータセットには43.6億トークンと33.48億アムハラ文字が含まれます。
Цитаты
"Large Language Models (LLMs) like GPT-4 and LLaMA have shown incredible proficiency at natural language processing tasks." "Despite their success, LLMs often struggle to perform well on low-resource languages because there is so little training data available." "We explore training LLaMA-2 to speak Amharic, a language which is spoken by over 50 million people worldwide." "Our models and datasets are open source and available on GitHub."

Ключевые выводы из

by Michael Ande... в arxiv.org 03-12-2024

https://arxiv.org/pdf/2403.06354.pdf
Amharic LLaMA and LLaVA

Дополнительные вопросы

今後この技術が他の低リソース言語でも応用可能か?

この研究で使用されたデータ拡張手法や機械翻訳を通じて、低リソース言語向けに大規模なデータセットを生成する方法は、他の言語にも適用可能です。特に、公開されているデータが限られている場合やインターネット上で利用可能なトークン数が少ない場合に有効です。さらに、異なる文化的背景や文字セットを持つ言語でも同様のアプローチが取れます。ただし、各言語固有の特性やニーズに合わせて適切なカスタマイズと微調整が必要となります。
0
star