Selbstüberwachte objektzentrierte Repräsentationslernen in Videos durch Semantik und zeitliche Korrespondenz
Unser Modell kombiniert semantische Diskriminierung und zeitliche Korrespondenz, um diskriminative und zeitlich konsistente objektzentrierte Darstellungen ohne menschliche Annotationen zu erlernen.