Ein einheitlicher und vielseitiger Rahmen für die multimodale hybride Domänenanpassung
UniHDA ist ein einheitlicher und vielseitiger Rahmen für die generative hybride Domänenanpassung mit multimodalen Referenzen aus mehreren Domänen. Es verwendet den CLIP-Encoder, um multimodale Referenzen in einen einheitlichen Einbettungsraum zu projizieren, und nutzt dann die lineare Interpolation der Richtungsvektoren aus mehreren Zieldomänen, um eine hybride Domänenanpassung zu erreichen. Außerdem führt es einen neuartigen Verlust der domänenübergreifenden räumlichen Struktur ein, um die Konsistenz mit der Quelldomäne zu erhalten.