核心概念
DesignQA는 다중 모달 대형 언어 모델(MLLM)의 엔지니어링 요구사항 이해 및 적용 능력을 평가하는 새로운 벤치마크이다.
要約
DesignQA는 실제 세계의 엔지니어링 과제에 초점을 맞추어 개발된 벤치마크로, 텍스트 설계 요구사항, CAD 이미지, 엔지니어링 도면 등의 다중 모달 데이터를 포함한다. 기존 MLLM 벤치마크와 달리 DesignQA는 입력 이미지와 입력 문서가 다른 출처에서 온 문서 기반 시각 질문을 포함한다. 벤치마크는 자동 평가 지표로 구성되며, 요구사항 이해, 요구사항 준수, 요구사항 추출의 세 가지 세그먼트로 나뉜다. GPT4와 LLaVA 등 최신 모델을 평가한 결과, MLLM의 복잡한 엔지니어링 문서 해석 능력에 여전히 한계가 있음을 보여준다. 이 벤치마크는 향후 AI 지원 엔지니어링 설계 프로세스 발전의 기반을 마련한다.
統計
엔지니어링 요구사항 문서는 약 70,091개의 토큰으로 구성되어 있다.
GPT4-AllRules 모델은 요구사항 문서 전체를 컨텍스트 창에 입력받아 가장 우수한 성능을 보였다.
GPT4-RAG 모델은 단순 LlamaIndex 검색 방식으로 요구사항 문서 일부만 입력받아 성능이 저하되었다.
LLaVA-RAG 모델은 GPT4-RAG보다 더 낮은 성능을 보였다.
引用
"DesignQA는 실제 세계의 엔지니어링 과제에 초점을 맞추어 개발된 벤치마크로, 텍스트 설계 요구사항, CAD 이미지, 엔지니어링 도면 등의 다중 모달 데이터를 포함한다."
"GPT4-AllRules 모델은 요구사항 문서 전체를 컨텍스트 창에 입력받아 가장 우수한 성능을 보였다."
"LLaVA-RAG 모델은 GPT4-RAG보다 더 낮은 성능을 보였다."