Core Concepts
本研究では、事前学習済みの大規模生成モデルの色彩豊かな表現力を活用し、入力の白黒画像に対して、意味的に類似し、構造的に整合した色付き参照画像を自動的に合成することで、高品質かつ多様なカラー化を実現する。
Abstract
本研究では、自動カラー化の新しいフレームワークを提案している。このフレームワークの中核となるのが「想像モジュール」である。この想像モジュールでは、事前学習済みの大規模生成モデルを活用して、入力の白黒画像と意味的に類似し、構造的に整合した色付き参照画像を自動的に合成する。
具体的には、まず、ControlNetを用いて、入力の白黒画像に基づいて複数の参照候補画像を生成する。次に、参照画像の精製モジュールにおいて、これらの参照候補画像から最適な参照画像を合成する。この際、入力画像のセグメンテーションを行い、各セグメントに最も適した参照画像の部分を選択することで、意味的に整合性の高い参照画像を得る。
最後に、この参照画像を用いて、カラー化モジュールにより、入力の白黒画像をカラー化する。
このフレームワークにより、従来の自動カラー化手法と比べて、より自然で写実的な、かつ多様なカラー化結果を得ることができる。また、ユーザーが参照画像の一部を変更することで、カラー化結果を対話的に編集することも可能である。
Stats
白黒画像の意味的セグメンテーションを行い、各セグメントに最も適した参照画像の部分を選択することで、意味的に整合性の高い参照画像を合成する。