Concepts de base
FISTNetは、事前学習したマルチパスのスタイル転送ネットワークを活用し、大量のデータを必要とせずに、顔の構造や特徴を保ちつつ、多様なスタイルを融合した高品質な画像を生成する。
Résumé
本研究は、顔スタイル転送の分野において、FISTNetを提案している。FISTNetは、事前学習したマルチパスのスタイル転送ネットワークを活用することで、大量のデータを必要とせずに、高品質な画像を生成することができる。
具体的には以下の3つの特徴がある:
- 内部スタイルパスでは、事前学習したStyleGANモデルを微調整することで、顔の構造や特徴を保持する。
- 外部スタイルパスでは、事前学習したAnimeGANv2などの複数のエンコーダを融合することで、多様なスタイルを生成する。
- ゲートマッピングユニットを導入し、ドメイン固有の特徴を抽出することで、顔の詳細を保持する。
さらに、カリキュラム学習を用いた微調整プロセスにより、効率的で柔軟なスタイルとモデルの融合を実現している。
実験の結果、FISTNetは既存の手法と比較して、顔の詳細を保ちつつ、多様なスタイルを生成できることが示された。
Stats
顔の構造や特徴を保持するために、事前学習したStyleGANモデルを微調整する際に以下の損失関数を使用した:
損失関数 = 1/K Σ ||Gbase(I) - Gtl(I)||^2
ここで、Gbaseは事前学習モデル、Gtlは微調整モデル、Kはブロック数を表す。
また、顔の同一性を保持するために以下の損失関数を使用した:
損失関数 = ||f(Gbase(σy)) - f(Gbase(σy + σy*))||^2
ここで、fは事前学習の顔認識モデル、σy*は同一性を保持するための潜在変数の変化量を表す。