이 연구에서는 GenHowTo라는 텍스트 및 이미지 조건부 생성 모델을 제안한다. GenHowTo는 입력 이미지와 텍스트 프롬프트를 활용하여 행동과 최종 상태를 생성할 수 있다.
데이터셋 구축 단계에서는 자동화된 방법을 통해 교육 동영상에서 초기 상태, 행동, 최종 상태를 나타내는 이미지 트리플렛과 해당 텍스트 설명을 추출하였다.
모델 학습 시에는 행동과 최종 상태를 각각 별도의 모델로 학습하였으며, 입력 이미지의 잠재 공간 표현을 활용하여 배경을 유지하면서 객체 변환을 수행하도록 하였다.
정성적 및 정량적 평가 결과, GenHowTo는 기존 방법들에 비해 우수한 성능을 보였다. 특히 행동 생성 및 최종 상태 생성 모두에서 높은 정확도를 달성하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문