핵심 개념
PALO is a large multilingual multimodal model designed to bridge the gap between vision and language tasks across ten major languages, offering inclusive and high-performing capabilities.
초록
研究は、10の主要言語をカバーする大規模な多言語マルチモーダルモデルであるPALOを紹介しています。このモデルは、ビジョンと言語のタスク間のギャップを埋めることを目的とし、高い性能と包括性を提供しています。PALOは、英語、中国語、フランス語、スペイン語、ロシア語、日本語などの高リソース言語だけでなく、ヒンディー語、アラビア語、ベンガル語、ウルドゥー語などの低リソース言語にも対応しております。研究では3つのスケール(1.7B、7B、13Bパラメータ)でPALOをトレーニングしました。
통계
総人口の65%に相当する約50億人に及ぶ10の主要言語が含まれている。
モデルは3つのスケールでトレーニングされており、低リソース言語でも高いパフォーマンスを示している。
英国や中国などの高リソース言語においても改善が見られた。
인용구
"Propelled by advancements in generative AI, Large Multimodal Models (LMMs) have emerged as a pivotal advancement in the field, seamlessly bridging the gap between vision and language tasks."
"Our work addresses this disparity by developing the first fully open-source multilingual LMM called PALO, which encompasses ten major languages covering 65% of the global population."
"PALO offers visual reasoning capabilities in 10 major languages that span a total of ∼5B people (65% of the world population)."
"The resulting polyglot LMMs demonstrate performance gains on diverse language tasks with substantial improvements in understanding and generating content for low-resource languages."
"We introduce PALO, a polyglot LLM for 5B people, covering almost two-thirds of the world’s population."