核心概念
大規模な多様モーダルモデル(LMM)は、ビデオゲームの不具合を検出できるかどうかを評価するための新しいベンチマーク「GlitchBench」を紹介する。
要約
本論文では、ビデオゲームの品質保証に関する実世界のタスクを反映した新しいベンチマーク「GlitchBench」を提案している。
GlitchBenchの構築プロセス:
593個の不具合画面と330個の不具合のない画面を収集
不具合の種類を4つのカテゴリーに分類 (物理/衝突/スポーン、アニメーション/ポーズ、レンダリング/テクスチャ、カメラ/UI/照明)
各画像に対して、不具合の説明を1行で記述
GlitchBenchの評価:
11種類の最新のLMMモデルを評価
GPT-4Vが最も高い平均精度43.4%を達成
LLaVA-1.5-13Bが最も高い性能の公開モデル
物理法則に反するような単純な不具合は検出できるが、より微妙な不具合は検出が難しい
顔の不具合の検出が特に困難
結論として、GlitchBenchは大規模LMMの一般化能力を評価する新しい課題を提供し、AIコミュニティにとって興味深い挑戦となる。
統計
ビデオゲーム業界の年間売上は2170億ドルに上る。
世界には32億人のゲーマーがいる。
ゲームの不具合を自動的に検出することは長年の課題である。