핵심 개념
텍스트 기반 이미지 생성 모델에서 발생하는 시각적 환각을 효과적으로 탐지하기 위해 포즈 정보를 활용한 새로운 접근법을 제안한다.
초록
본 연구는 텍스트 기반 이미지 생성 모델에서 발생하는 시각적 환각을 효과적으로 탐지하기 위한 새로운 접근법을 제안한다.
먼저, 텍스트 기반 이미지 생성 모델을 통해 생성된 카툰 캐릭터 이미지에서 발생하는 시각적 환각의 특성을 분석하였다. 이를 통해 캐릭터의 신체 구조 문제가 주요 원인임을 확인하였다.
이를 바탕으로 포즈 정보를 활용한 시각적 환각 탐지 시스템을 제안하였다. 구체적으로, 포즈 추정기를 통해 추출한 포즈 정보를 비주얼 언어 모델(VLM)에 추가 입력으로 제공하여, 시각적 환각을 보다 정확하게 탐지할 수 있도록 하였다.
실험 결과, 제안 방식은 기존 방식 대비 시각적 환각 탐지 성능이 크게 향상되었음을 보여주었다. 이를 통해 텍스트 기반 이미지 생성 모델의 신뢰성과 활용성을 높일 수 있을 것으로 기대된다.
통계
이 캐릭터는 {발차기, 주먹질, 점프, 달리기, 걷기 등} 동작을 수행하고 있으며 정상적인 인체 구조를 가지고 있다.
이 캐릭터는 {세 개의 다리, 세 개의 팔, 머리 없음, 팔 없음, 다리 없음, 한 개의 팔만 있음, 한 개의 다리만 있음} 등의 비정상적인 신체 구조를 가지고 있다.
인용구
"텍스트 기반 이미지 생성 모델과 비주얼 언어 모델을 결합하여 시각적 환각을 효과적으로 탐지할 수 있다."
"포즈 정보를 활용하면 카툰 캐릭터 이미지의 시각적 환각을 보다 정확하게 식별할 수 있다."