Core Concepts
DesignQAは、マルチモーダルの大規模言語モデル(MLLM)が工学要件を理解し適用する能力を評価するための新しいベンチマークである。
Abstract
本研究では、DesignQAという新しいベンチマークを紹介する。DesignQAは、MLLMの工学文書理解能力を評価することを目的としている。
DesignQAは、Formula SAEの学生競技をもとに開発された。テキストの設計要件、CADイメージ、工学図面などのマルチモーダルデータを含む。
多くの既存のMLLMベンチマークとは異なり、DesignQAには文書に基づいた視覚的な質問が含まれ、入力画像と入力文書が異なる出所から来ている。
ベンチマークは自動評価メトリクスを備え、要件理解、要件遵守、要件抽出の3つのセグメントに分かれている。
GPT4やLLaVAなどの最先端モデルを評価した結果、MLLMには工学文書の詳細な要件を正確に抽出し適用する能力に大きな限界があることが明らかになった。
このベンチマークは、AI支援の工学設計プロセスの今後の発展に向けた基盤を提供する。
Stats
100 million users two months after its release
GPT-4 and LLaVA were evaluated on the benchmark