核心概念
本稿では、多様なオブジェクトの追加・削除タスクに対応する大規模画像編集データセット「GalaxyEdit」と、そのデータセットを用いて学習させた画像編集モデル、さらに、ControlNet-xsにボルテラフィルターを導入することで、より複雑な編集指示に対応できるよう拡張したControlNet-Vxsを提案する。
要約
GalaxyEdit: 拡張拡散アダプターを用いた大規模画像編集データセットとその有効性
論文情報
Bala, A., Jaiswal, R., Rashid, L., & Roheda, S. (2024). GalaxyEdit: Large-Scale Image Editing Dataset with Enhanced Diffusion Adapter. arXiv preprint arXiv:2411.13794v1.
研究目的
本研究は、画像編集、特にオブジェクトの追加・削除タスクにおいて、高精度かつ多様な編集指示に対応可能な大規模データセットの構築と、そのデータセットを用いた高性能な画像編集モデルの開発を目的とする。
手法
- GalaxyEditデータセット構築: COCOデータセットを基に、オブジェクト検出、マスク生成、意味的フィルタリング、マスクベースのインペインティング、編集指示生成のパイプラインを用いて、オブジェクトの追加・削除タスクに対応する大規模データセットを構築した。
- ControlNet-Vxsの提案: ControlNet-xsのエンコーダ間情報伝達にボルテラニューラルネットワーク(VNN)を導入することで、非線形な情報融合を実現し、より複雑な編集指示への対応を可能にしたControlNet-Vxsを提案した。
結果
- GalaxyEditデータセットの有効性: GalaxyEditデータセットを用いて学習させたStable Diffusion v1.5モデルは、既存の画像編集データセット(PIPE, InstInpaint, IP2P)を用いた場合と比較して、オブジェクトの追加・削除タスクにおいて、FIDスコアでそれぞれ11.2%、26.1%の性能向上を示した。
- ControlNet-Vxsの有効性: ControlNet-Vxsは、ControlNet-xsと比較して、GalaxyEditデータセットを用いたオブジェクトの追加・削除タスク、およびCannyエッジ画像からの画像生成タスクにおいて、より高精度な結果を示した。
結論
本研究では、大規模画像編集データセットGalaxyEditと、拡張拡散アダプターControlNet-Vxsを提案することで、高精度かつ多様な編集指示に対応可能な画像編集モデルを実現した。
意義
本研究は、画像編集分野において、高品質な編集結果を得るためのデータセット構築とモデル開発に貢献するものである。特に、ControlNet-Vxsは、複雑な編集指示への対応能力を高めることで、より高度な画像編集の可能性を広げるものである。
限界と今後の展望
GalaxyEditデータセットはCOCOデータセットを基に構築されているため、COCOデータセットに含まれないオブジェクトやシーンへの対応は限定的である。また、ControlNet-Vxsは、ControlNet-xsと比較して計算コストが若干増加する。今後の研究として、より多様なデータセットへの対応、および計算コストの削減などが挙げられる。
統計
GalaxyEditデータセットは、800,000枚の画像ペアと編集指示から構成される。
ControlNet-Vxsは、ControlNet-xsと比較して、GalaxyEditデータセットを用いたオブジェクト削除タスクにおいてFIDスコアで11.4%の性能向上を示した。
ControlNet-Vxsは、ControlNet-xsと比較して、Cannyエッジ画像からの画像生成タスクにおいてFIDスコアで17.143から15.125に減少した。