XL2Bench is a benchmark designed to comprehensively evaluate large language models' ability to understand and process extremely long texts with long-range dependencies, covering three scenarios (Fiction Reading, Paper Reading, and Law Reading) and four tasks (Memory Retrieval, Detailed Understanding, Overall Understanding, and Open-ended Generation).


coremsg

xl2bench-a-comprehensive-benchmark-for-extremely-long-text-understanding-with-long-range-dependencies


XL2Bench: A Comprehensive Benchmark for Extremely Long Text Understanding with Long-range Dependencies