本研究では、HELM ベンチマークを事例として、ベンチマークの設計選択がコスト-信頼性のトレードオフにどのように影響するかを調査する。新しい指標「Decision Impact on Reliability (DIoR)」を提案し、これを用いて分析を行った。
主な発見点は以下の通り:
これらの分析結果に基づき、効率的ベンチマーク設計と利用のための具体的な提案を行う。さらに、HELM ベンチマークに適用可能な効率的な評価アルゴリズム「Flash-HELM」を提案し、計算コストを最大200倍削減しつつ、ランキングの信頼性を維持できることを示す。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Yotam Perlit... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.11696.pdfสอบถามเพิ่มเติม