본 연구는 CLIP 모델의 안전성을 향상시키기 위한 새로운 접근법을 제안한다. 대규모 비전-언어 모델은 웹 스케일 데이터로 학습되어 부적절한 콘텐츠가 포함될 수 있으며, 이는 안전하지 않고 편향된 동작을 초래할 수 있다.
연구진은 안전하고 부적절한 이미지와 텍스트로 구성된 합성 데이터셋을 자동으로 생성하였다. 이 데이터셋을 활용하여 CLIP 모델을 미세 조정하였는데, 부적절한 콘텐츠를 안전한 영역으로 재배치하는 손실 함수와 원래 임베딩 공간의 구조를 유지하는 손실 함수를 사용하였다.
실험 결과, 제안된 Safe-CLIP 모델은 교차 모달 검색, 텍스트-이미지 생성, 이미지-텍스트 생성 등의 작업에서 부적절한 콘텐츠 생성을 크게 줄일 수 있음을 보여주었다. 또한 Safe-CLIP은 사전 학습된 생성 모델과 함께 사용될 수 있음을 입증하였다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Samuele Popp... kl. arxiv.org 04-15-2024
https://arxiv.org/pdf/2311.16254.pdfDybere Forespørgsler