テキストから画像生成

Log på

indsigt - テキストから画像生成

高度に一貫したキャラクターを持つテキストから画像生成に向けて

テキストから画像を生成する際に、顔、服装、髪型、体型の一貫性を維持することで、物語性のある一連の画像を生成する。

一貫したキャラクターを持つテキストから画像生成モデル

テキストによる入力に基づいて、同一のキャラクターを一貫して生成することができる。

マルチモーダル大規模言語モデルは、テキストから画像生成のための人間に整合したアノテーター

マルチモーダル大規模言語モデルを活用して、テキストから画像生成のための大規模で高品質な好みデータセットVisionPreferを構築し、それを用いて生成モデルの人間好みへの整合性を大幅に向上させることができる。

マルチコンセプト生成のための効率的な手法「MultiBooth」

MultiBooth は、テキストから複数のカスタマイズされたコンセプトを含む画像を効率的に生成する新しい手法である。

テキストから画像生成における安全性を高めるLatent Guardフレームワーク

Latent Guardは、テキストから画像生成モデルの入力テキストに含まれる有害な概念を潜在表現空間で検出することで、安全性を高めるフレームワークである。

テキストから画像を生成するモデルにおける公平性の欠如を発見するOpenBiasパイプラインの提案

OpenBiasは、事前定義された偏見セットに依存せずに、テキストから画像を生成するモデルにおける任意の偏見を発見し、定量化するパイプラインを提案する。

高品質な360度パノラマ画像を文章から生成する手法の提案

本論文では、テキストから高品質な360度パノラマ画像を生成する新しい手法「PanFusion」を提案する。PanFusionは、パノラマ画像生成と視点画像生成の2つのブランチを持つデュアルブランチ型のディフュージョンモデルであり、両者の協調的な学習により、従来手法よりも高品質で一貫性のあるパノラマ画像を生成できる。

限られたデータセットでも高品質な個人化画像生成を可能にするContrastive Adapter Training

Contrastive Adapter Training (CAT)は、元のモデルの知識を保持しつつ、限られたデータセットでも高品質な個人化画像生成を可能にする。

NeuroPrompts: 自動的にプロンプトを最適化し、テキストから画像生成の品質を向上させる

NeuroPromptsは、ユーザーが提供したプロンプトを自動的に最適化し、テキストから画像生成モデルによって生成される画像の品質を向上させる。

ユーザーの嗜好に合わせたテキストから画像生成の強化

ユーザーの過去の入力プロンプトを活用し、ユーザーの嗜好に合わせてプロンプトを書き換えることで、テキストから画像生成の精度を向上させる。

Produkter

Ressourcer