Ein Modell, das Fragen zu langen egozentrische Videos gleichzeitig zeitlich verorten und beantworten kann.