Główne pojęcia
LongGenBenchは、従来の検索ベースのベンチマークとは異なり、長文生成能力、特に論理フローの整合性に焦点を当て、大規模言語モデル(LLM)の性能を評価するための新しいベンチマークである。
Xiang LIU, Peijie DONG, Xuming HU†, Xiaowen CHU†. (2024). LONGGENBENCH: Long-context Generation Benchmark. arXiv preprint, arXiv:2410.04199.
本研究は、既存の長文ベンチマークが検索ベースのタスクに偏っている点を踏まえ、大規模言語モデル(LLM)の長文生成能力、特に論理フローの整合性を評価するための新しいベンチマークであるLongGenBenchを提案する。