本研究では、HELM ベンチマークを事例として、ベンチマークの設計選択がコスト-信頼性のトレードオフにどのように影響するかを調査する。新しい指標「Decision Impact on Reliability (DIoR)」を提案し、これを用いて分析を行った。
主な発見点は以下の通り:
これらの分析結果に基づき、効率的ベンチマーク設計と利用のための具体的な提案を行う。さらに、HELM ベンチマークに適用可能な効率的な評価アルゴリズム「Flash-HELM」を提案し、計算コストを最大200倍削減しつつ、ランキングの信頼性を維持できることを示す。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yotam Perlit... a las arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.11696.pdfConsultas más profundas