Verhandlungsspiele bieten einen realistischen und ökologisch validen Bewertungskontext, um die Leistung und Ausrichtung von Sprachmodellen gemeinsam zu beurteilen.