Core Concepts
拡散モデルの優れた生成能力と意味理解に基づく高レベルの色彩ガイダンスを組み合わせることで、多様で自然な色付けを実現する。
Abstract
本研究では、自動カラー化の課題である「意味的に不自然な色」と「色の飽和度不足」を解決するための手法を提案している。
まず、事前学習済みの安定拡散モデルを利用し、入力の白黒画像の輝度情報を潜在空間に注入することで、生成結果の入力への忠実性を高めている。さらに、カテゴリ、キャプション、セグメンテーションといった高レベルの意味情報を多様に活用することで、生成される色の意味的妥当性と彩度を向上させている。
また、エンコーダ-デコーダ構造の最後にルミナンス対応デコーダを設計し、潜在空間での情報損失を補完することで、全体の視覚品質を高めている。
実験の結果、提案手法は従来手法に比べて、知覚的リアリズムと人間の好みの両面で優れた性能を示すことが確認された。
Stats
提案手法はFIDスコアで9.799を達成し、従来手法を上回る性能を示した。
色彩の鮮やかさを表すColorful指標では41.54を記録し、最高水準の結果を得た。
Quotes
「拡散モデルの優れた生成能力と意味理解に基づくガイダンスを組み合わせることで、多様で自然な色付けを実現する」
「高レベルの意味情報を活用することで、生成される色の意味的妥当性と彩度を向上させている」
「ルミナンス対応デコーダを設計し、潜在空間での情報損失を補完することで、全体の視覚品質を高めている」