Centrala begrepp
본 논문에서는 잠재적 물리 현상 지식을 비디오 확산 모델에 통합하여 보다 사실적이고 물리 법칙에 부합하는 비디오 생성을 가능하게 하는 새로운 방법을 제안합니다.
Sammanfattning
잠재적 물리 현상 지식을 활용한 비디오 확산 모델 학습
본 연구는 기존 비디오 확산 모델이 갖는 물리 법칙 이해 부족 문제를 해결하고자, 잠재적 물리 현상 지식을 모델에 주입하여 보다 사실적이고 물리적으로 정확한 비디오 생성을 목표로 합니다.
잠재적 지식 추출: 먼저, 다양한 물리 현상 시뮬레이션 데이터셋을 이용하여 Masked Autoencoder (MAE)를 사전 학습합니다. MAE는 입력 영상의 일부를 가리고 가려진 부분을 예측하도록 학습되므로, 이 과정에서 물리 현상의 잠재적 표현을 학습하게 됩니다.
Quaternion 네트워크 투영: CLIP 모델의 시각적 특징과 MAE에서 추출된 잠재적 지식을 Quaternion 공간에 투영합니다. Quaternion 네트워크는 공간 관계 모델링에 효과적이며, 이를 통해 시각적 특징과 물리적 지식 사이의 정렬된 관계를 모델링합니다.
잠재적 지식 주입: Quaternion 네트워크에서 생성된 의사 언어 프롬프트 임베딩을 비디오 확산 모델의 교차 어텐션 레이어에 통합합니다. 이를 통해 모델은 텍스트 프롬프트 없이도 물리적 지식을 활용하여 비디오를 생성할 수 있습니다.
LoRA를 활용한 효율적인 미세 조정: LoRA (Low-Rank Adaptation) 기법을 사용하여 비디오 확산 모델을 효율적으로 미세 조정합니다. LoRA는 모델의 적은 파라미터만을 업데이트하여 효율성을 높이면서도 성능 저하를 최소화합니다.