Khái niệm cốt lõi
공정한 이미지 생성을 위해 외부 이미지 데이터베이스에서 다양한 인구통계학적 그룹의 참조 이미지를 활용하여 사전 훈련된 생성 모델을 조건화하는 프레임워크를 제안한다.
Tóm tắt
이 논문은 공정한 이미지 생성을 위한 Fair Retrieval Augmented Generation (FairRAG) 프레임워크를 소개한다. 기존 텍스트-이미지 생성 모델은 훈련 데이터에 내재된 사회적 편향을 반영하거나 증폭시키는 경향이 있다. 특히 인물 이미지 생성에서 이러한 편향이 두드러지게 나타난다. FairRAG는 외부 이미지 데이터베이스에서 다양한 연령, 성별, 피부톤 그룹의 참조 이미지를 활용하여 사전 훈련된 생성 모델을 조건화함으로써 공정성을 향상시킨다.
FairRAG는 다음과 같은 메커니즘을 사용한다:
참조 이미지를 텍스트 공간에 투영하는 경량 선형 모듈을 통해 생성 모델을 조건화한다. 이를 통해 기존 조건화 방식의 계산 오버헤드를 피할 수 있다.
공정한 검색 시스템을 통해 다양한 인구통계학적 그룹의 이미지를 균형있게 샘플링한다.
생성 과정에서 참조 이미지의 연령, 성별, 피부톤 속성을 전이하는 텍스트 지시어를 사용한다.
실험 결과, FairRAG는 기존 방법들에 비해 인구통계학적 다양성, 이미지-텍스트 정렬, 이미지 충실도 측면에서 우수한 성능을 보였다. 또한 추론 시 최소한의 계산 오버헤드만 발생한다.
Thống kê
다양한 연령, 성별, 피부톤 그룹의 이미지를 균형있게 샘플링하는 것이 공정성 향상에 도움이 된다.
참조 이미지의 속성을 전이하는 텍스트 지시어를 사용하면 생성 과정에서 더 나은 성능을 보인다.
Trích dẫn
"기존 텍스트-이미지 생성 모델은 훈련 데이터에 내재된 사회적 편향을 반영하거나 증폭시키는 경향이 있다."
"FairRAG는 외부 이미지 데이터베이스에서 다양한 연령, 성별, 피부톤 그룹의 참조 이미지를 활용하여 사전 훈련된 생성 모델을 조건화함으로써 공정성을 향상시킨다."