Der AV-SUPERB Benchmark umfasst sieben verschiedene Datensätze, die fünf Audio-Visuelle Aufgaben aus den Bereichen Sprache und Audio abdecken. Der Benchmark ist in drei Tracks unterteilt, um unimodale Audio- und Video-Repräsentationen sowie bimodale Audio-Visuelle Fusionsrepräsentationen zu evaluieren.
Die Experimente zeigen, dass keines der fünf getesteten Modelle in allen Aufgaben die beste Leistung erbringt, was den Bedarf für weitere Forschung an universellen Audio-Visuellen Repräsentationsmodellen unterstreicht. Die Autoren betonen auch den potenziellen Nutzen von Zwischenschritt-Feinabstimmung, bei der Modelle zunächst auf einer verwandten Aufgabe trainiert werden, bevor sie auf den Zielaufgaben feinabgestimmt werden.
Darüber hinaus zeigt die Analyse der Beiträge einzelner Modellschichten, dass die Verwendung einer gewichteten Summe der Schichtrepräsentationen anstelle der Repräsentation der letzten Schicht allein zu besseren Ergebnissen führt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuan Tseng,L... lúc arxiv.org 03-20-2024
https://arxiv.org/pdf/2309.10787.pdfYêu cầu sâu hơn