Die Studie untersucht den Zusammenhang zwischen der Häufigkeit von Konzepten in Vortrainings-Datensätzen und der "Zero-Shot"-Leistung von Multimodellen. Die Autoren analysieren 34 Modelle, die auf 5 großen Vortrainings-Datensätzen trainiert wurden, und finden konsistent, dass die Modellleistung linear mit dem exponentiellen Wachstum der Konzepthäufigkeit in den Vortrainings-Datensätzen skaliert. Dies gilt sowohl für Klassifikations- als auch Retrieval-Aufgaben und zeigt sich auch bei der Kontrolle für ähnliche Stichproben zwischen Trainings- und Testdaten sowie bei Tests auf synthetischen Datensätzen. Die Autoren argumentieren, dass die beeindruckende empirische Leistung von Multimodellen wie CLIP und Stable Diffusion hauptsächlich auf die Präsenz der Testkonzepte in ihren riesigen Vortrainings-Datensätzen zurückzuführen ist und daher nicht als "Zero-Shot"-Generalisierung bezeichnet werden kann. Stattdessen benötigen diese Modelle exponentiell mehr Daten, um lineare Verbesserungen in der "Zero-Shot"-Leistung zu erzielen, was auf extreme Stichproben-Ineffizienz hindeutet. Die Autoren stellen einen neuen Benchmark-Datensatz "Let It Wag!" vor, um die Generalisierungsleistung von Multimodellen auf seltenen Konzepten zu testen, und zeigen, dass aktuelle Modelle hier deutlich schlechter abschneiden.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문