Effizientes schwach überwachtes Lernen zur Lokalisierung von Videotextabschnitten
Ein neuartiges siamesisches Lernframework, das die Ausrichtung von Kreuzmodalitätsmerkmalen und die zeitliche Koordinatenregression ohne Zeitstempelannotationen gemeinsam lernt, um eine effiziente und praktikable schwach überwachte Lokalisierung von Videotextabschnitten zu erreichen.