Core Concepts
XL2Benchは、極端に長いテキストの理解と長距離依存関係を評価するための包括的なベンチマークである。3つのシナリオ、4つのタスク、27のサブタスクで構成され、平均100K+単語(英語)、200K+文字(中国語)の長さを持つ。
Abstract
XL2Benchは、以下の3つのシナリオで構成されている:
小説読解
論文読解
法律文書読解
各シナリオには以下の4つのタスクが設定されている:
メモリ検索: 与えられた指示に基づいて、テキスト内の関連コンテンツを正確に検索・抽出する能力を評価する。
詳細理解: テキストを包括的に理解し、要約や質問回答などの活動を行う能力を評価する。
全体理解: テキスト全体の理解に基づいて、テーマや登場人物の描写など、高次の理解を要する質問に答える能力を評価する。
オープンエンド生成: テキストの理解に基づいて、キャラクターの役割演技やニュース記事の生成などの創造的な拡張と推論を行う能力を評価する。
XL2Benchは、データ汚染の問題に対処するため、テキスト変換、キー情報置換、テキスト連結の3つの手法を用いて拡張データセットを構築している。
Stats
小説の主人公は80日間魚を釣れずに困難な状況に置かれていた。
漁師たちは、老人が釣り上げた巨大なマグロの骨格を驚いて見ていた。その骨格は18フィートもあった。
老人は、長期の不漁にもかかわらず、最終的に巨大なマグロを釣り上げることができた。
Quotes
"彼は18フィートもあった。"
"彼は今や完全に、そして最終的にsalaoだと、つまり最悪の不運な状態にあると、少年の両親は言っていた。"