Основні поняття
웹 스케일 데이터로 학습된 CLIP과 같은 대규모 비전-언어 모델은 부적절한 콘텐츠를 포함할 수 있으며, 이는 안전하지 않고 편향된 동작을 초래할 수 있다. 본 연구는 CLIP 모델의 안전성을 높이기 위한 새로운 미세 조정 방법론을 소개한다.
Анотація
본 연구는 CLIP 모델의 안전성을 향상시키기 위한 새로운 접근법을 제안한다. 대규모 비전-언어 모델은 웹 스케일 데이터로 학습되어 부적절한 콘텐츠가 포함될 수 있으며, 이는 안전하지 않고 편향된 동작을 초래할 수 있다.
연구진은 안전하고 부적절한 이미지와 텍스트로 구성된 합성 데이터셋을 자동으로 생성하였다. 이 데이터셋을 활용하여 CLIP 모델을 미세 조정하였는데, 부적절한 콘텐츠를 안전한 영역으로 재배치하는 손실 함수와 원래 임베딩 공간의 구조를 유지하는 손실 함수를 사용하였다.
실험 결과, 제안된 Safe-CLIP 모델은 교차 모달 검색, 텍스트-이미지 생성, 이미지-텍스트 생성 등의 작업에서 부적절한 콘텐츠 생성을 크게 줄일 수 있음을 보여주었다. 또한 Safe-CLIP은 사전 학습된 생성 모델과 함께 사용될 수 있음을 입증하였다.
Статистика
부적절한 텍스트 프롬프트를 사용할 때 CLIP 모델 대비 Safe-CLIP 모델의 상위 1개 검색 결과에서 부적절한 이미지 생성 확률이 13.5% 감소했다.
부적절한 이미지 프롬프트를 사용할 때 CLIP 모델 대비 Safe-CLIP 모델의 상위 1개 검색 결과에서 부적절한 텍스트 생성 확률이 30.8% 감소했다.
Safe-CLIP을 Stable Diffusion 모델에 적용했을 때 I2P 데이터셋의 부적절한 이미지 생성 확률이 13.5% 감소했고, ViSU 데이터셋에서는 22.6% 감소했다.
Safe-CLIP을 LLaVA 모델에 적용했을 때 NudeNet, NSFW URLs, SMID 데이터셋의 부적절한 텍스트 생성 확률이 각각 35.9%, 27.4%, 10.5% 감소했다.
Цитати
"웹 스케일 데이터로 학습된 대규모 비전-언어 모델은 부적절한 콘텐츠를 포함할 수 있으며, 이는 안전하지 않고 편향된 동작을 초래할 수 있다."
"본 연구는 CLIP 모델의 안전성을 높이기 위한 새로운 미세 조정 방법론을 소개한다."
"실험 결과, 제안된 Safe-CLIP 모델은 교차 모달 검색, 텍스트-이미지 생성, 이미지-텍스트 생성 등의 작업에서 부적절한 콘텐츠 생성을 크게 줄일 수 있음을 보여주었다."