言語モデルの多様な機能を包括的に評価するベンチマークは膨大な計算コストを伴うが、その効率性については十分な議論がなされていない。本研究では、信頼性を損なわずに計算コストを削減する「効率的ベンチマーキング」の問題に取り組む。