Core Concepts
LLMのSVG編集機能を定量的に評価するためのベンチマークデータセット「SVGEditBench」を提案した。
Abstract
本論文では、LLMのSVG編集機能を定量的に評価するためのベンチマークデータセット「SVGEditBench」を提案した。
まず、SVGの特徴と最近のベクトルグラフィック処理に関する研究について説明した。SVGはXMLフォーマットで表現されるため、LLMが直接処理できる。そのため、LLMを使ってSVGの編集が可能になってきている。
次に、SVGEditBenchの構築方法について述べた。Twemojiのデータセットから1366枚のSVGイメージを選択し、6つの編集タスクを定義した。これらのタスクは、SVGコードの属性を1つ変更するだけで完了できるものが多い。そのため、LLMがSVGの機能を理解しているかどうかを評価できる。
最後に、GPT-4とGPT-3.5を提案ベンチマークで評価した結果を示した。GPT-4はGPT-3.5よりも全てのタスクで優れた性能を示した。定量的な評価と、実際の出力画像の質的評価の両方から、GPT-4のSVG編集能力が高いことが確認できた。
今後の課題としては、セマンティックな理解を評価するタスクを追加することや、SVG編集に特化したLLMのファインチューニングなどが考えられる。
Stats
SVGコードを短縮するタスクでは、GPT-4はコードの長さを94.5%に圧縮できた。一方、GPT-3.5は96.1%まで圧縮できた。