SimulBenchは、大規模言語モデル(LLM)の創造的シミュレーション課題に対する能力を評価するためのベンチマークである。LLMの一般的な知能を測る効果的な指標として、これらのシミュレーション課題が重要であるにもかかわらず、従来のベンチマークではほとんど考慮されていなかった。SimulBenchは、ユーザーとLLMの対話履歴を収集し、その中から難易度の高い対話スクリプトを抽出して、LLMの応答を自動的に評価する枠組みを提案している。


coremsg

シミュレーション課題を用いた言語モデルの評価-simulbench


シミュレーション課題を用いた言語モデルの評価 - SimulBench