Core Concepts
LLM의 SVG 편집 기능을 정량적으로 평가하기 위한 벤치마크 데이터셋 SVGEditBench를 제안한다.
Abstract
이 논문에서는 LLM의 SVG 편집 기능을 정량적으로 평가하기 위한 벤치마크 데이터셋 SVGEditBench를 제안했다.
SVG는 벡터 그래픽 표현 방식으로, XML 텍스트로 구성되어 LLM이 직접 처리할 수 있다. 따라서 LLM을 활용한 SVG 편집이 가능해졌다.
SVGEditBench는 6가지 SVG 편집 작업을 정의하고, 각 작업에 대한 입력 SVG 코드와 정답 SVG 코드를 제공한다. 이를 통해 LLM의 SVG 편집 성능을 정량적으로 평가할 수 있다.
실험 결과, GPT-4가 GPT-3.5보다 모든 편집 작업에서 우수한 성능을 보였다. 정량적 평가와 더불어 정성적 평가에서도 GPT-4의 우수성이 확인되었다.
향후 과제로는 SVG의 의미적 이해를 평가하는 작업을 추가하고, 다양한 LLM 모델에 대한 벤치마크 수행이 필요할 것으로 보인다.
Stats
편집 작업 수행 시 GPT-4의 MSE가 GPT-3.5보다 낮았다.
압축 작업에서 GPT-4의 압축률이 94.5%로 GPT-3.5의 96.1%보다 우수했다.
Quotes
"SVG는 XML 텍스트로 구성되어 LLM이 직접 처리할 수 있다."
"GPT-4가 GPT-3.5보다 모든 편집 작업에서 우수한 성능을 보였다."