Leistungsstarke Open-Source-LLMs für komplexes Schlussfolgern durch Präferenzlernen und Belohnungsmodellierung
EURUS, eine Reihe von großen Sprachmodellen, die durch die Verwendung von ULTRAINTERACT, einem hochqualitativen Ausrichtungsdatensatz für komplexes Schlussfolgern, und neuartige Belohnungsmodellierungsziele Spitzenergebnisse auf herausfordernden Benchmarks erzielen.