Core Concepts
In dieser Studie wird ein kosteneffektiver Ansatz zur Erstellung eines mehrsprachigen, multimodalen Datensatzes und zur Entwicklung eines leistungsfähigen mehrsprachigen Großsprachmodells vorgestellt, das die Leistung in Koreanisch und Englisch deutlich verbessert.
Abstract
Die Studie beschreibt einen Ansatz zur Erstellung eines mehrsprachigen, multimodalen Datensatzes und zur Entwicklung eines leistungsfähigen mehrsprachigen Großsprachmodells.
Zunächst wird ein Verfahren zur Erstellung eines 91.000 Datenpunkte umfassenden mehrsprachigen (Englisch, Koreanisch, Chinesisch) Datensatzes für visuelle Instruktionsaufgaben (VIF) vorgestellt. Dieser Datensatz konzentriert sich auf die Beschreibung von Objektbeziehungen und -eigenschaften, im Gegensatz zu den eher beschreibenden und schlussfolgernden Datensätzen früherer Arbeiten.
Anschließend wird das mehrsprachige Großsprachmodell X-LLaVA präsentiert, das auf dem LLaVA1.5-Modell aufbaut. X-LLaVA wendet drei Verbesserungsmethoden an: 1) Erweiterung des Vokabulars für die Zielsprache Koreanisch, 2) mehrsprachiges Vortraining zur Verknüpfung von Wissen über Sprachgrenzen hinweg und 3) mehrsprachiges VIF-Training.
Die Ergebnisse zeigen, dass X-LLaVA im Durchschnitt eine Verbesserung von 5,2% in drei koreanischen Evaluationen im Vergleich zum zuvor vorgeschlagenen KoLLaVA-Modell erreicht. Darüber hinaus erzielte es in zwei von fünf englischen Evaluationen die höchste Leistung. In qualitativen Bewertungen zeigten Präferenzanalysen mit GPT4-V, dass die von unserem Modell generierten Antworten in Englisch und Koreanisch 19-93% besser waren als bestehende Modelle.
Stats
Das vorgeschlagene X-LLaVA-Modell wurde mit einem Datensatz von 91.000 mehrsprachigen VIF-Datenpunkten trainiert.
Die Erstellung des Datensatzes kostete etwa 3.200 US-Dollar und erforderte eine A6000-GPU.
Quotes
"In dieser Studie wurde ein kosteneffektiver Ansatz zur Erstellung eines mehrsprachigen, multimodalen Datensatzes und zur Entwicklung eines leistungsfähigen mehrsprachigen Großsprachmodells vorgestellt."
"Das vorgeschlagene X-LLaVA-Modell zeigte im Durchschnitt eine Verbesserung von 5,2% in drei koreanischen Evaluationen im Vergleich zum zuvor vorgeschlagenen KoLLaVA-Modell."
"In qualitativen Bewertungen zeigten Präferenzanalysen mit GPT4-V, dass die von unserem Modell generierten Antworten in Englisch und Koreanisch 19-93% besser waren als bestehende Modelle."