Refer-VI-ReID zielt darauf ab, sichtbare Bilder aus Infrarotbildern und groben Sprachbeschreibungen abzugleichen, um fehlende Farbinformationen zu ergänzen.