텍스트-이미지 생성 모델의 성능을 평가하기 위해서는 프롬프트 세트, 인간 평가 실험 설계, 그리고 자동 평가 지표 개발이 필요하다. 본 연구에서는 이를 위해 Gecko2K 벤치마크를 제안하고, 다양한 인간 평가 템플릿과 자동 평가 지표를 비교 분석한다.