NeuroPrompts는 텍스트-이미지 생성 모델의 프롬프트를 자동으로 최적화하는 새로운 프레임워크입니다. 이 프레임워크는 사용자가 제공한 프롬프트를 입력으로 받아 언어 모델을 활용하여 프롬프트를 개선합니다.
먼저, 언어 모델을 인간 프롬프트 엔지니어의 스타일로 적응시킵니다. 이를 위해 감독 학습과 강화 학습을 사용합니다. 감독 학습에서는 대규모 인간 제작 프롬프트 데이터셋을 활용하여 언어 모델을 미세 조정합니다. 강화 학습에서는 이미지 선호도 예측 모델을 보상 함수로 사용하여 언어 모델을 추가로 학습시킵니다.
그 다음, 제약 텍스트 생성 알고리즘인 NeuroLogic Decoding을 사용하여 최적화된 프롬프트를 생성합니다. 이 과정에서 사용자는 스타일, 형식, 예술적 유사성 등의 속성을 제어할 수 있습니다.
실험 결과, NeuroPrompts로 생성된 프롬프트는 기존 프롬프트보다 미적 점수와 사용자 선호도 점수가 높은 이미지를 생성합니다. 이는 NeuroPrompts가 사용자의 전문적인 프롬프트 엔지니어링 없이도 텍스트-이미지 생성 모델의 성능을 높일 수 있음을 보여줍니다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Shachar Rose... um arxiv.org 04-09-2024
https://arxiv.org/pdf/2311.12229.pdfTiefere Fragen