Transformer-basierte Modelle können räumliche Beziehungen zwischen Objekten effektiv erfassen und übertreffen naive Baselines.