핵심 개념
인간의 시각적 유사성 판단 행동을 예측하고 조작할 수 있는 AI 모델 CoCoG를 제안한다. CoCoG는 인간의 개념 표현을 학습하고 이를 활용하여 시각적 자극을 생성할 수 있다.
초록
이 연구는 인간의 시각적 개념 표현을 학습하고 이를 활용하여 시각적 자극을 생성하는 CoCoG 모델을 제안한다.
CoCoG는 두 가지 주요 구성 요소로 이루어져 있다:
- 개념 인코더: CLIP 이미지 인코더와 학습 가능한 개념 프로젝터로 구성되어 있다. 이를 통해 시각적 자극에 대한 해석 가능한 저차원 개념 표현을 학습할 수 있다. 또한 이 개념 표현을 활용하여 인간의 시각적 유사성 판단 행동을 예측할 수 있다.
- 개념 디코더: 두 단계로 구성된다. 첫 번째 단계에서는 개념 표현을 CLIP 표현으로 변환하는 사전 확산 모델을 학습한다. 두 번째 단계에서는 CLIP 표현을 활용하여 시각적 자극을 생성하는 CLIP 가이드 생성 모델을 사용한다.
실험 결과, CoCoG는 기존 최고 성능 모델보다 인간 행동 예측 정확도가 높고, 개념 표현을 활용하여 다양하고 일관성 있는 시각적 자극을 생성할 수 있다. 또한 생성된 자극을 통해 인간의 유사성 판단 행동을 조작할 수 있다. 이를 통해 인간 인지 과정의 인과 관계를 연구할 수 있다.
통계
우리 모델의 인간 행동 예측 정확도는 64.07%로, 이전 최고 모델인 VICE의 63.27%를 넘어섰다.
우리 모델이 예측한 시각적 자극 간 유사도와 VICE 모델이 예측한 유사도 간 피어슨 상관계수는 0.94이다.
인용구
"CoCoG는 인간의 시각적 유사성 판단 행동을 예측하고 조작할 수 있는 AI 모델이다."
"CoCoG는 인간의 개념 표현을 학습하고 이를 활용하여 다양하고 일관성 있는 시각적 자극을 생성할 수 있다."