텍스트 설명을 바탕으로 실제적이고 다양한 3D 인간-객체 상호작용 장면을 생성하는 모델 InterFusion을 제안한다.
본 연구는 사전 학습된 2D 확산 모델을 다중 시점 2.5D 정보로 미세 조정하여, 효율적이고 다양한 텍스트 기반 3D 콘텐츠 생성을 달성한다.
복잡한 의미 프롬프트에 대한 정확한 3D 콘텐츠 생성을 위해 Progressive3D 프레임워크를 제안한다. Progressive3D는 전체 생성 과정을 일련의 국소적 편집 단계로 분해하여 사용자 정의 영역 프롬프트에 따라 콘텐츠 변화를 제한하고, 중첩된 의미 성분 억제 기술을 통해 프롬프트 간 의미 차이에 초점을 맞추도록 한다.