Core Concepts
본 연구는 언어 모델 임베딩 공간을 활용하여 텍스트-이미지 생성 모델의 편향을 효율적으로 조작하는 방법을 제안한다. 이를 통해 정확한 프롬프트 엔지니어링, 편향 완화, 그리고 은밀한 백도어 공격이 가능하다.
Abstract
본 연구는 텍스트-이미지 생성 모델의 편향 조작 가능성을 탐구한다. 주요 내용은 다음과 같다:
언어 모델 임베딩 공간을 활용하여 효율적이고 동적인 편향 조작 기법을 제안한다. 이를 통해 편향의 심각도를 조절할 수 있으며, 일반적인 텍스트 프롬프트로는 생성하기 어려운 이미지를 생성할 수 있다.
다중 클러스터 튜닝 기법을 활용하여 성별, 나이, 인종 등의 사회적 편향을 완화하는 방법을 제안한다. 이를 통해 텍스트-이미지 생성 모델의 공정성을 향상시킬 수 있다.
의미적으로 무의미한 트리거를 활용한 백도어 공격 기법을 제안한다. 이를 통해 모델의 출력을 목표 클래스로 조작할 수 있으며, 공격의 심각도를 조절할 수 있다.
Stats
개-고양이 변환 실험에서 S가 증가함에 따라 고양이 클래스 확률(PB)이 0.057에서 0.920으로 증가했다.
나이 편향 완화 실험에서 Syoung = 0.3, Sold = 0.3으로 조정했을 때 젊음과 나이든 사람 클래스 확률이 각각 0.53, 0.47로 균형을 이루었다.
인종 편향 완화 실험에서 Swhite = 0, Sblack = -0.15, Sasian = 0으로 조정했을 때 백인, 흑인, 아시아인 클래스 확률이 각각 0.24, 0.37, 0.39로 균형을 이루었다.