本論文では、ベトナム語マルチモーダル大規模言語モデル「ラヴィ」を紹介する。ラヴィは、ベトナム語の豊かな視覚的および言語的情報を活用し、多様なマルチモーダルタスクに優れた性能を発揮する。
ラヴィの開発では以下の取り組みを行った:
アーキテクチャ: LlaVAアーキテクチャを採用し、CLIP-Largeビジョンエンコーダ、MLPプロジェクタ、大規模言語モデルVistralを統合した。
データキュレーション: 翻訳後に手動で洗練された708Kの画像-キャプション対と166Kの高品質命令文を収集した。また、8,000枚のベトナム語画像に対して詳細な説明文を生成した。
学習手順: 2段階の学習を行った。事前学習では画像-テキストの整合性を学習し、ファインチューニングではビジュアル命令チューニングを適用した。
さらに、ベトナム語マルチモーダルモデルの評価のためのベンチマーク「ラヴィベンチ」を提案した。ゼロショットVQAタスクと実世界画像タスクから成り、ベトナム語の視覚言語理解とジェネレーション能力を評価する。
実験の結果、ラヴィは多言語ベースラインモデルmBLIPを大幅に上回るパフォーマンスを示した。これにより、ベトナム語マルチモーダル言語理解の発展に貢献できると期待される。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Chi Tran,Huo... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07922.pdfDypere Spørsmål