Core Concepts
UIデザイン画像からHTMLコードを自動生成するための大規模で高品質なデータセット「VISION2UI」を提案する。
Abstract
本論文では、UIデザイン画像からHTMLコードを自動生成するための大規模で高品質なデータセット「VISION2UI」を提案している。
データセット構築のパイプラインは以下の通り:
Common Crawlデータセットから元データを収集
HTMLコードとCSSコードを統合し、ノイズを除去
Pyppeteerを使ってスクリーンショットを生成し、レイアウト情報を付与
手動で評価したサブセットを使って学習したニューラルスコアを用いて高品質なサンプルを選別
提案したデータセットは以下の特徴を持つ:
20,000サンプル(今後100万サンプル以上を公開予定)
HTMLコードとデザイン画像のペア
各HTMLエレメントのレイアウト情報を含む
既存のWebSightやDesign2Codeと比べ、より多様で実世界に近いデータ
本データセットは、マルチモーダルな大規模言語モデルをUIコード生成に適用する際の課題を解決し、より高度な自動UIコード生成を実現することが期待される。
Stats
HTMLコードの平均トークン長は8,460±7,120
HTMLコードの平均タグ数は175±94
HTMLコードの平均固有タグ数は21±5
HTMLコードのDOM木の平均最大深さは15±5