Core Concepts
UnsafeBench는 실제 및 AI 생성 이미지에 대한 이미지 안전성 분류기의 효과성과 견고성을 평가하는 포괄적인 벤치마킹 프레임워크이다. 이를 통해 기존 이미지 안전성 분류기의 한계를 파악하고 개선된 분류기 PerspectiveVision을 제안한다.
Abstract
UnsafeBench는 다음과 같은 4단계로 구성됩니다:
데이터셋 구축: LAION-5B와 Lexica에서 수집한 12,932개의 잠재적으로 안전하지 않은 이미지를 3명의 저자가 수동으로 주석 처리하여 10,146개의 안전/안전하지 않은 이미지로 구성된 UnsafeBench 데이터셋을 구축했습니다.
분류기 수집: 기존 5개의 이미지 안전성 분류기(Q16, MultiHeaded, SD_Filter, NSFW_Detector, NudeNet)와 3개의 VLM 기반 분류기(LLaVA, InstructBLIP, GPT-4V)를 수집했습니다.
분류기 범위 정렬: 각 분류기가 다루는 11개 안전하지 않은 이미지 범주를 식별하고 정렬했습니다.
효과성 및 견고성 평가: UnsafeBench 데이터셋을 사용하여 분류기의 효과성(F1-Score)과 견고성(Robust Accuracy)을 평가했습니다. 특히 실제 이미지와 AI 생성 이미지 간 성능 차이를 분석했습니다.
주요 발견:
GPT-4V가 가장 우수한 성능을 보였지만 상용 모델이라 광범위한 적용이 어려움
다양한 안전하지 않은 이미지 범주에 대한 탐지 성능이 균형적이지 않음
실제 이미지 기반으로 학습된 분류기들이 AI 생성 이미지에서 성능 저하를 겪음
AI 생성 이미지의 예술적 표현과 격자 레이아웃이 분류기 성능에 영향을 미침
이를 바탕으로 PerspectiveVision을 개발했으며, 이는 실제 및 AI 생성 이미지에서 11개 범주의 안전하지 않은 이미지를 효과적으로 식별할 수 있습니다.
Stats
실제 이미지에서 SD_Filter의 성적 이미지 탐지 F1-Score는 0.833이지만, AI 생성 이미지에서는 0.727로 감소했습니다.
GPT-4V는 실제 폭력 이미지를 0.774의 F1-Score로 탐지했지만, AI 생성 폭력 이미지에서는 0.712로 감소했습니다.
Q16의 증오 이미지 탐지 시 false negative 비율은 0.306, false positive 비율은 0.166이었습니다.
GPT-4V의 증오 이미지 탐지 시 false negative 비율은 0.144, false positive 비율은 0.425였습니다.
Quotes
"AI 생성 이미지에서 예술적 표현과 격자 레이아웃이 분류기 성능에 영향을 미침"
"기존 이미지 안전성 분류기는 다양한 범주의 안전하지 않은 이미지를 효과적으로 탐지하지 못함"