本稿では、畳み込みニューラルネットワーク(CNN)を用いて、コンテンツ画像に別の画像のスタイルを転送するニューラルスタイル変換(NST)について解説する。
Gatysらによって提案された初期のNSTは、コンテンツ画像とスタイル画像の特徴表現間の距離を最小化する最適化問題として定式化された。しかし、この手法は計算コストが高く、リアルタイム処理には適していなかった。
Johnsonらは、スタイル固有のネットワークを事前に学習することで、テスト時に1回の順伝播でスタイル変換を実現する高速NSTを提案した。
HuangとBelongieは、条件付きインスタンス正規化を適応インスタンス正規化(AdaIN)に変更することで、任意のスタイル画像に対してリアルタイムにスタイル変換を行うアルゴリズムを提案した。
VGGと比較して、ResNetは残差接続を持つため、スタイル変換に適さない低エントロピーの特徴マップを生成する傾向がある。
Wangらは、活性化スムージングを用いたスタイル変換(SWAG)を提案し、ソフトマックスベースのスムージング変換を用いて活性化を平滑化することで、ResNetのスタイル変換性能を向上させた。
本稿では、ソフトマックス関数に加えて、小さな定数(0.001)の乗算、双曲線正接関数、ソフトサイン関数も同様の効果を持つことを示す。
L-BFGSオプティマイザを用いることで、Adamよりも高品質なスタイル変換結果を得ることができた。
MS-COCOデータセットで学習したスタイル変換ネットワークを用いて、リアルタイムに近い速度でスタイル変換を行うことができた。
AdaIN層を用いることで、任意のスタイル画像に対して高品質なスタイル変換結果を得ることができた。
ResNetに活性化スムージングを適用することで、VGGと同等以上のスタイル変換結果を得ることができた。
活性化スムージングを用いたResNetは、従来のVGGベースの手法よりも高品質かつ堅牢なスタイル変換を実現する。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania