核心概念
本手法は、製品の正確な形状、サイズ、色を保持しつつ、モデルの顔の表情、ポーズ、外観を細かく制御できる広告画像生成手法を提案する。
要約
本論文は、e-commerce広告画像生成のための新しい課題である「厳密な製品IDの保持」を定義し、それを実現するためのControl-Netベースのパイプラインを提案している。
製品(イヤリング)の形状、サイズ、色を正確に保持するため、イヤリングの画像を条件入力として利用する。
モデルの顔の表情、ポーズ、外観を細かく制御するため、マルチブランチのクロスアテンション機構を導入する。
各ブランチの影響をバランス良く調整するため、標準偏差に基づく正規化(STD-Norm)と時間依存重み付け(TDW)の手法を提案する。
実験の結果、提案手法は既存手法と比べて、製品IDの保持と細かな制御性能に優れていることを示している。
統計
生成画像の顔の同一性は98.3%が正しく保持されている。
提案手法は、テキストベースの制御手法と比べて、顔の大きさ(92.0%)、ポーズ(96.3%)、人種(94.3%)の制御精度が高い。
引用
"Customized generative text-to-image models have the ability to produce images that closely resemble a given subject. However, in the context of generating advertising images for e-commerce scenarios, it is crucial that the generated subject's identity aligns perfectly with the product being advertised."
"To address the need for strictly-ID-preserved advertising image generation, we have developed a Control-Net based customized image generation pipeline and have taken earring-model advertising as an example."