이 논문은 대형 언어 모델(LLM)을 활용하여 사용자의 요청에 맞는 적절한 텍스트-이미지(T2I) 생성 API를 신속하게 선별할 수 있는 DiffAgent 모델을 제안한다.
먼저, 저자들은 Civitai 커뮤니티에서 수집한 방대한 양의 T2I API와 사용자 프롬프트 쌍으로 구성된 DABench 데이터셋을 구축했다. 이를 통해 LLM을 fine-tuning하여 DiffAgent-SFT 모델을 만들었다.
이후 DiffAgent-SFT 모델을 RRHF 알고리즘으로 추가 fine-tuning하여 DiffAgent-RRHF 모델을 만들었다. DiffAgent-RRHF는 사용자 선호도와 잘 부합하는 T2I API를 선별할 수 있다.
실험 결과, DiffAgent-RRHF는 기존 모델 대비 T2I API 선별 성능이 크게 향상되었으며, 사용자 선호도 측면에서도 우수한 결과를 보였다. 또한 DiffAgent는 4.81초 만에 적절한 T2I API를 선별할 수 있어 효율적이다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Lirui Zhao,Y... في arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01342.pdfاستفسارات أعمق