Core Concepts
느린 fMRI 신호로부터 동적 자연 시각을 재구성하는 새로운 모델 Mind-Animator를 제안합니다. 이 모델은 의미, 구조, 운동 정보를 분리하여 학습하고, 이를 통해 기존 모델보다 우수한 성능을 달성합니다.
Abstract
이 논문은 동적 자연 시각을 fMRI 신호로부터 재구성하는 새로운 모델 Mind-Animator를 제안합니다. 기존 모델들은 의미, 구조, 운동 정보를 동시에 학습하지 못했지만, Mind-Animator는 이를 분리하여 학습합니다.
구체적으로 다음과 같은 과정을 거칩니다:
fMRI-to-feature 단계:
의미 정보 디코더: fMRI를 CLIP 표현 공간에 매핑하여 의미 정보를 학습
구조 정보 디코더: VQ-VAE를 이용하여 프레임의 구조 정보를 학습
운동 정보 디코더: Transformer 기반의 Consistency Motion Generator를 통해 운동 정보를 학습
feature-to-video 단계:
학습된 의미, 구조, 운동 정보를 inflated Stable Diffusion 모델에 입력하여 비디오를 재구성
실험 결과, Mind-Animator는 기존 모델 대비 의미, 구조, 시공간적 일관성 측면에서 우수한 성능을 보였습니다. 또한 퍼뮤테이션 테스트를 통해 재구성된 비디오의 운동 정보가 fMRI로부터 실제로 디코딩되었음을 검증했습니다.
Stats
재구성된 비디오의 프레임 간 픽셀 유사도(SSIM)가 기존 SOTA 대비 76% 향상되었습니다.
재구성된 비디오의 시공간적 일관성(CLIP-pcc)이 0.425로, 기존 SOTA 대비 향상되었습니다.
Quotes
"Mind-Animator는 의미, 구조, 운동 정보를 분리하여 학습함으로써 기존 모델 대비 우수한 성능을 달성했습니다."
"퍼뮤테이션 테스트를 통해 재구성된 비디오의 운동 정보가 fMRI로부터 실제로 디코딩되었음을 검증했습니다."