แนวคิดหลัก
텍스트 설명을 바탕으로 실제적이고 다양한 3D 인간-객체 상호작용 장면을 생성하는 모델 InterFusion을 제안한다.
บทคัดย่อ
이 연구에서는 텍스트 기반 3D 인간-객체 상호작용(HOI) 생성을 위한 새로운 프레임워크 InterFusion을 소개한다. InterFusion은 두 단계로 구성된다:
- 앵커 포즈 생성 단계:
- 합성 이미지 데이터셋에서 다양한 상호작용을 나타내는 3D 인간 포즈를 추출한다.
- 텍스트 설명과 포즈 간의 매핑을 학습하여 텍스트 입력에 대한 적절한 앵커 포즈를 생성한다.
- 포즈 기반 HOI 생성 단계:
- 앵커 포즈를 기하학적 제약으로 활용하여 인간 모델과 객체 모델을 개별적으로 최적화한다.
- 텍스트 정보를 활용하여 인간 모델과 객체 모델을 통합적으로 최적화하여 최종 HOI 장면을 생성한다.
이를 통해 InterFusion은 기존 방법들에 비해 더 현실적이고 상세한 3D HOI 장면을 생성할 수 있다. 실험 결과는 InterFusion의 우수한 성능을 입증한다.
สถิติ
다양한 상호작용을 나타내는 합성 이미지 데이터셋에서 추출한 3D 인간 포즈는 55,000개이다.
이 포즈 데이터셋을 활용하여 2,048개의 대표 포즈 코드북을 구축하였다.
คำพูด
"InterFusion은 두 단계로 구성된다: 앵커 포즈 생성 단계와 포즈 기반 HOI 생성 단계."
"앵커 포즈를 기하학적 제약으로 활용하여 인간 모델과 객체 모델을 개별적으로 최적화한다."
"텍스트 정보를 활용하여 인간 모델과 객체 모델을 통합적으로 최적화하여 최종 HOI 장면을 생성한다."