본 연구는 텍스트 기반 이미지 생성 모델에서 발생하는 시각적 환각을 효과적으로 탐지하기 위한 새로운 접근법을 제안한다.
먼저, 텍스트 기반 이미지 생성 모델을 통해 생성된 카툰 캐릭터 이미지에서 발생하는 시각적 환각의 특성을 분석하였다. 이를 통해 캐릭터의 신체 구조 문제가 주요 원인임을 확인하였다.
이를 바탕으로 포즈 정보를 활용한 시각적 환각 탐지 시스템을 제안하였다. 구체적으로, 포즈 추정기를 통해 추출한 포즈 정보를 비주얼 언어 모델(VLM)에 추가 입력으로 제공하여, 시각적 환각을 보다 정확하게 탐지할 수 있도록 하였다.
실험 결과, 제안 방식은 기존 방식 대비 시각적 환각 탐지 성능이 크게 향상되었음을 보여주었다. 이를 통해 텍스트 기반 이미지 생성 모델의 신뢰성과 활용성을 높일 수 있을 것으로 기대된다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询