In diesem Papier stellen wir LaVy, das erste vietnamesische Multimodale Große Sprachmodell, vor. LaVy wurde entwickelt, um die Lücke zwischen vietnamesischen Großen Sprachmodellen und Multimodalen Großen Sprachmodellen zu schließen und die Forschung im Bereich des vietnamesischen multimodalen Sprachverständnisses voranzubringen.
Zunächst beschreiben wir die Architektur von LaVy, die auf dem LlaVA-Modell basiert und eine Bildenkodierung, einen MLP-Projektor und ein Sprachmodell umfasst. Anschließend erläutern wir unser neuartiges Datenpipeline-Verfahren, bei dem wir eine Kombination aus übersetzten und verfeinerten Bildunterschriften sowie synthetisch generierten vietnamesischen Beschreibungen verwenden, um hochwertige multimodale Trainingsdaten zu erstellen.
Darüber hinaus präsentieren wir den LaVy-Bench, einen Benchmark, der speziell für die Bewertung der Leistung von Multimodalen Großen Sprachmodellen in vietnamesischen Sprachverständnisaufgaben entwickelt wurde. Dieser Benchmark umfasst einen Zero-Shot-Visuelle-Fragebeantworung-Test und einen In-the-Wild-Test, die die Fähigkeiten von Modellen in verschiedenen Aspekten des vietnamesischen visuellen Sprachverständnisses evaluieren.
Unsere Experimente zeigen, dass LaVy die Leistung bestehender multilingualer Basismodelle deutlich übertrifft und neue Maßstäbe für vietnamesische Multimodale Große Sprachmodelle setzt. Wir hoffen, dass unsere Arbeit einen wichtigen Beitrag zur Weiterentwicklung der vietnamesischen Multimodalen Großen Sprachmodelle leisten wird.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询