Evaluierung von Sprachmodellen mit langen Kontexten mithilfe von längenanpassbaren Benchmarks
Ada-LEval ist ein neuartiger Benchmark zur Bewertung der Fähigkeiten von Sprachmodellen im Umgang mit extrem langen Texten. Der Benchmark umfasst zwei anspruchsvolle Aufgaben, die ein vollständiges Textverständnis erfordern, und ermöglicht eine präzise Messung der Leistung über verschiedene Textlängen hinweg.