SimulBenchは、LLMの創造的シミュレーション課題に対する能力を評価するためのベンチマークである。従来のベンチマークは単発の対話や事前定義された2回の対話に焦点を当てていたが、SimulBenchは複数ターンにわたる対話を必要とする課題を扱う。
具体的には以下の手順で評価を行う:
実験の結果、GPT-4-turboが最も高い成績を収めたが、オープンソースのLLMも徐々に性能を向上させている。特に、LLaMA-3-70B-ChatはGPT-4-turboに迫る成績を収めた。一方で、LLMは知識を柔軟に適用することが苦手で、暗号化アルゴリズムの実装やボードゲームのような戦略的な課題に弱いことが明らかになった。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Qi Jia, Xian... lúc arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07641.pdfYêu cầu sâu hơn