核心概念
本研究では、高解像度の窓の写真データセットと、それを模倣する高品質な合成データセットを提供することで、合成データを用いた機械学習モデルの開発を支援する。
摘要
本研究では、「WinSyn」と呼ばれる新しいデータセットを紹介する。このデータセットは、世界各地から収集した高解像度の窓の写真89,318枚と、それを模倣する合成データ21,290枚から構成される。
データセットの構築にあたっては、以下の点に注力した:
多様性: 窓の形状やマテリアルの幅広い変化を捉えるため、世界各地から写真を収集した。
高解像度: 4K~6Kの高解像度画像を収集し、建築物の細部まで捉えられるようにした。
著作権: 全ての画像の著作権を保持し、研究利用に支障がないようにした。
収集した実写画像のうち9,002枚にはセグメンテーションのラベルが付与されている。また、合成データセットの生成には、CGA言語やBézierスプラインを用いた手法を採用し、多様な窓の形状や装飾を再現できるようにした。
実写データと合成データを用いてセグメンテーションモデルの学習を行った結果、合成データのみでは実写データに劣る性能しか得られないことが分かった。しかし、合成データと実写データを組み合わせて学習させることで、実写データのみを使う場合よりも高い精度が得られることも示された。
本研究で提供するWinSynデータセットは、合成データを用いた機械学習モデルの開発において有用な基盤となるだろう。また、深度推定、反射率推定、3D再構築などの応用分野への展開も期待できる。
統計資料
窓のセグメンテーションに関する指標であるmIoUは、実写データのみを使った場合が58.69、合成データのみを使った場合が32.58であった。