Основные понятия
SimulBenchは、大規模言語モデル(LLM)の創造的シミュレーション課題に対する能力を評価するためのベンチマークである。LLMの一般的な知能を測る効果的な指標として、これらのシミュレーション課題が重要であるにもかかわらず、従来のベンチマークではほとんど考慮されていなかった。SimulBenchは、ユーザーとLLMの対話履歴を収集し、その中から難易度の高い対話スクリプトを抽出して、LLMの応答を自動的に評価する枠組みを提案している。
Аннотация
SimulBenchは、LLMの創造的シミュレーション課題に対する能力を評価するためのベンチマークである。従来のベンチマークは単発の対話や事前定義された2回の対話に焦点を当てていたが、SimulBenchは複数ターンにわたる対話を必要とする課題を扱う。
具体的には以下の手順で評価を行う:
- ユーザーエージェントとLLMの対話を収集する
- 対話履歴から難易度の高い部分を抽出してテストスクリプトを作成する
- GPT-4を評価者として使い、各LLMの応答の質を採点する
実験の結果、GPT-4-turboが最も高い成績を収めたが、オープンソースのLLMも徐々に性能を向上させている。特に、LLaMA-3-70B-ChatはGPT-4-turboに迫る成績を収めた。一方で、LLMは知識を柔軟に適用することが苦手で、暗号化アルゴリズムの実装やボードゲームのような戦略的な課題に弱いことが明らかになった。
Статистика
LLaMA-3-70B-Chatは、LLaMA-2-70B-Chatに比べて、SIMULBENCH-Allで16.35%、SIMULBENCH-Hardで25.06%高い成績を収めた。
GPT-4-turboは、GPT-4oに比べて、SIMULBENCH-Hardの18.55%の課題で優れた成績を収めた。
Цитаты
"LLMは知識を柔軟に適用することが苦手で、暗号化アルゴリズムの実装やボードゲームのような戦略的な課題に弱い。"
"GPT-4-turboが最も高い成績を収めたが、オープンソースのLLMも徐々に性能を向上させている。特に、LLaMA-3-70B-ChatはGPT-4-turboに迫る成績を収めた。"