이 논문은 단일 이미지에서 다중 객체로 구성된 고품질 3D 자산을 생성하는 ComboVerse 프레임워크를 제안합니다.
첫째, 기존 단일 객체 생성 모델의 "다중 객체 격차"를 분석합니다. 이는 모델 및 데이터 편향으로 인해 발생하는 문제로, 객체 크기, 가림, 누출 패턴 등의 한계를 보입니다.
둘째, 제안하는 ComboVerse는 두 단계로 구성됩니다. 먼저 개별 객체를 재구성하고, 다음으로 객체의 크기, 회전, 위치를 최적화하여 조합합니다. 이때 공간 인식 확산 가이드를 통해 객체 배치를 개선합니다.
셋째, 공간 인식 확산 가이드는 사전 학습된 확산 모델의 주의 집중 맵을 강화하여 객체 간 공간 관계에 더 큰 비중을 둡니다. 이를 통해 기존 방식보다 정확한 객체 배치를 달성합니다.
넷째, 실험 결과 ComboVerse는 기존 방식 대비 복잡한 장면에서 더 나은 성능을 보입니다. 사용자 평가에서도 제안 방식이 우수한 것으로 나타났습니다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések