AnyRef, ein neues Multi-Modal-Instruktionsmodell, ermöglicht pixelgenaue Objektwahrnehmungen und Sprachbeschreibungen aus verschiedenen Modalitätsreferenzen.