EN/中文/日本語

AgileGAN: Stylizing Portraits by Inversion-Consistent Transfer Learning

Guoxian Song, Linjie Luo, Jing Liu, Wan-Chun Ma, Chunpong Lai, Chuanxia Zheng, Tat-Jen Cham — ACM Transactions on Graphics (Siggraph 2021).
alt text

図1.一番上の行(小):いくつかのサンプル(芸術的な形式)の例。 下の2行:入力画像、Toonify [Pinkney and Adler 2020]カートゥーンの結果、および私たちのいくつかの形式の結果。 単一の入力した画像を指定すると、私たちのメソッドでは迅速に (130ミリ秒)、様々な芸術的な形式で高画質 (1024 × 1024) な肖像画を自動的に創造できます。 新しい形式の場合、アジャイルトレーニング戦略には約100枚サンプルの模範が必要であり、1時間でトレーニングを終えることができます。

概要

芸術形式としての肖像画は、現実的な描写から多数の創造的な形式へと進化しました。自動的に創造された形式は、大幅に進歩しましたが高画質な形式のポートレートを創造することは依然として課題であり、最近人気のあるToonifyでさえ実際の入力画像で使用するといくつかのアーティファクトに悩まされます。このようなStyleGANベースのメソッドは、入力画像を再構築するための最良の潜在的反転マッピングを見つけることに焦点を合わせてきました。ただし、私たちの重要な洞察は、これがさまざまなポートレート形式への適切な一般化につながらないということです。したがって、反転一貫性のある転送学習を介して高品質の文体の肖像画を生成できるフレームワークであるAgileGANを提案します。逆マッピングされた分布が元の潜在ガウス分布に一致することを保証すると同時に、元の空間をマルチ解像度の潜在空間に拡張してさまざまな詳細レベルをより適切にエンコードする、新しい階層型変分オートエンコーダを導入します。顔の特徴の属性に依存する形式をより適切にキャプチャするために、属性認識ジェネレーターを提示し、小さなトレーニングデータセットの過剰適合を回避するための早期停止戦略を採用します。私たちのアプローチは、限られた数のスタイルエグザンプラ(〜100)と短いトレーニング時間(〜1時間)のみを必要とする、高品質で高解像度(1024×1024)のポートレート形式化モデルを作成する際の俊敏性を高めます。 3D漫画、漫画、油絵、有名人など、評価用のいくつかの形式データセットを収集しました。定性的、定量的、および知覚的なユーザー調査を通じて比較を行うことで、以前の最先端の方法よりも優れたポートレート形式の品質を達成できることを示します。また、私たちのメソッドである2つの利用法、画像編集とモーションリターゲティングについても説明します。

ビデオ

デモ

alt text

携帯電話を使用してQRコードをスキャンするか、ウェブサイトに直接アクセスしてください。

リソース

[論文] [ビデオ] [付録] [プロジェクトのウェブサイト] [コード]