المفاهيم الأساسية
HanDiffuserは、テキストからリアルな手の外観を生成します。
الملخص
HanDiffuserは、テキストから高品質な手を生成する新しいモデルです。手の形状、ポーズ、指の動きに基づく手の埋め込みを学習し、テキストと組み合わせて高品質な画像を生成します。従来の方法では難しかったリアルな手の生成に成功しました。このモデルは、SMPL-Hパラメーターを使用して画像を生成するためにテキスト入力から直接学習します。さまざまな実験やユーザースタディにより、HanDiffuserの効果が証明されています。
الإحصائيات
HanDiffuserは450Kのテキストと3D人間ペアでT2Hをトレーニングしました。
T-H2Iは約900Kのテキストと画像ペアでファインチューニングされました。
HanDiffuserはFID-Hで0.978のスコアを達成しました。
اقتباسات
"Hands often take up a small part of the image, but are highly articulate."
"Generating images with high-quality hands is a challenging problem."
"HanDiffuser can generate high-quality hands with plausible hand poses, shapes, and finger articulations."