Core Concepts
Obwohl Bilder eine Vielzahl von Informationen vermitteln können, ist es für maschinelle Lernmodelle eine große Herausforderung, Bilder so zu übersetzen, dass sie für verschiedene Kulturen relevant sind. Selbst fortschrittliche Bildbearbeitungsmodelle scheitern derzeit an dieser Aufgabe, aber durch den Einsatz von Sprachmodellen und Retrievern können Verbesserungen erzielt werden.
Abstract
Dieser Artikel untersucht die Fähigkeiten von Bildgenerierungsmodellen, visuelle Inhalte kulturell anzupassen. Obwohl Übersetzung traditionell auf Sprache beschränkt war, gewinnt die Übersetzung über verschiedene Modalitäten hinweg, wie Bilder, Musik und andere Elemente, zunehmend an Bedeutung, da diese ebenfalls zur Bedeutungsvermittlung beitragen.
Der Artikel stellt drei Pipelines vor, die state-of-the-art-Generierungsmodelle verwenden, um Bilder kulturell relevant zu machen:
e2e-instruct: Ein End-to-End-Modell, das Bilder direkt anhand natürlicher Sprachanweisungen bearbeitet.
cap-edit: Ein modularer Ansatz, der zunächst das Bild beschriftet, die Beschriftung für die Kulturrelevanz anpasst und dann das Originalbild entsprechend bearbeitet.
cap-retrieve: Ähnlich wie cap-edit, aber anstelle der Bildbearbeitung wird ein kulturell relevantes Bild aus einer länderspezifischen Datenbank abgerufen.
Um diese Pipelines zu evaluieren, erstellen die Autoren einen zweistufigen Datensatz:
Konzeptdatensatz: 600 Bilder über 7 Länder hinweg, die auf universellen Konzepten basieren.
Anwendungsdatensatz: 100 Bilder aus realen Anwendungen wie Lernmaterialien und Kinderliteratur.
Die menschliche Bewertung zeigt, dass die derzeitigen Bildbearbeitungsmodelle an dieser Aufgabe scheitern, aber durch den Einsatz von Sprachmodellen und Retrievern Verbesserungen erzielt werden können. Selbst die besten Pipelines können jedoch nur 5% der Bilder für einige Länder im einfacheren Konzeptdatensatz und keine erfolgreiche Übersetzung für einige Länder im schwierigeren Anwendungsdatensatz erreichen, was die Herausforderung dieser Aufgabe verdeutlicht.
Stats
Eine Schüssel mit gedünstetem Reis und Teriyaki-Hähnchen auf einem traditionellen japanischen Lackwarentablett ist kulturell relevanter für Japan als ein Teller mit Reis und Hähnchen auf weißem Hintergrund.
Anstelle von Brokkoli werden in Japan in dem Pixar-Film "Alles steht Kopf" Paprikaschoten verwendet, da Kinder Brokkoli nicht mögen.
Für den US-Markt wurden in der japanischen Zeichentrickserie Doraemon Änderungen wie das Ersetzen von Omelett-Reis durch Pfannkuchen, Essstäbchen durch Gabel und Löffel oder Yen-Noten durch Dollar-Noten vorgenommen.
Quotes
"Bilder sagen mehr als tausend Worte, aber können das auch alle verstehen?"
"Um die gleiche Wirkung auf das Zielpublikum zu erzielen, ist es bei Übersetzungsprozessen unerlässlich, kulturelle Anpassungen vorzunehmen."