Herausforderungen für Großsprachmodelle beim Multistep-Soft-Reasoning: Einführung des MuSR-Datensatzes
Großsprachmodelle, die mit Techniken wie Chain-of-Thought-Prompting ausgestattet sind, zeigen nach wie vor Schwächen bei der robusten Begründung in komplexen Situationen. Der MuSR-Datensatz wurde entwickelt, um diese Fähigkeiten zu evaluieren und die verbleibenden Lücken zu charakterisieren.