本論文では、YaARTと呼ばれる新しいテキスト条件付き画像生成モデルを紹介する。YaARTは、大規模なデータセットを用いて事前学習を行い、さらに強化学習によって人間の好みに合わせて調整されている。
事前学習段階では、モデルサイズと学習データサイズの影響を詳細に分析している。その結果、モデルサイズを大きくすることで学習効率が向上し、高品質な画像生成が可能になることを示している。一方で、学習データサイズは必ずしも大きいほど良いわけではなく、高品質なデータを少量使うことで同等の性能が得られることを明らかにしている。
強化学習段階では、画像の美しさ、整合性、テキストとの関連性の3つの評価基準に基づいて最適化を行っている。この結果、既存の最先端モデルと比べて、ユーザーから高い評価を得られるようになっている。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sergey Kastr... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05666.pdfDybere Forespørgsler