Core Concepts
단일 RGB 이미지에서 다양한 작업을 발견하고 실행하는 비주얼 내러티브를 생성하는 모델을 제안한다.
Abstract
이 논문은 단일 RGB 이미지에서 다양한 작업을 발견하고 실행하는 비주얼 내러티브를 생성하는 모델을 제안한다.
이미지 장면 이해: 비전-언어 모델(VLM)을 사용하여 상호작용 가능한 객체를 식별하고 문맥 의존적인 작업을 제안한다. 언어 기반 분할과 재페인팅 모델을 통해 가려진 객체 마스크를 획득한다.
3D 장면 재구성: 단일 뷰 3D 재구성 및 깊이 추정 모델을 사용하여 반 재구성된 3D 장면을 생성한다. 정확한 카메라 포즈, 객체 포즈 및 크기를 추정한다.
작업 계획 및 실행: VLM을 사용하여 3D 공간 맥락을 이해하고 제안된 작업에 따라 객체 운동을 계획한다. 전통적인 경로 계획 알고리즘을 사용하여 완전하고 자연스러운 궤적을 생성한다. 재구성된 3D 장면에서 계획된 경로를 따라 작업을 실행하고 비디오로 렌더링한다.
Stats
객체 0의 공간적 맥락:
3D 중심: [-21.0, 101.0, 4.0] cm
로컬 x축 (오른쪽 방향): [0.8637, 0.293, -0.41]
로컬 y축 (뒤쪽 왼쪽 방향): [-0.5943, 0.7879, 0.1614]
로컬 z축 (앞쪽 방향): [-0.1606, -0.7822, 0.6019]
객체 0 크기: 29.55 cm x 26.91 cm x 13.19 cm (가로 x 세로 x 높이)
객체 0 - 방향별 가장 가까운 객체: 오른쪽: 객체 1 (29.16 cm), 아래: 객체 4 (15.72 cm)