Vorhersage visueller Salienz mit einem kontextuellen Encoder-Decoder-Netzwerk
Das vorgeschlagene Encoder-Decoder-Netzwerk kombiniert semantische Merkmale auf mehreren räumlichen Skalen, um die Verteilung menschlicher Fixationen in natürlichen Szenen genau vorherzusagen.