Core Concepts
GenHowTo 모델은 입력 이미지와 텍스트 프롬프트를 활용하여 행동과 최종 상태를 생성할 수 있다.
Abstract
이 연구에서는 GenHowTo라는 텍스트 및 이미지 조건부 생성 모델을 제안한다. GenHowTo는 입력 이미지와 텍스트 프롬프트를 활용하여 행동과 최종 상태를 생성할 수 있다.
데이터셋 구축 단계에서는 자동화된 방법을 통해 교육 동영상에서 초기 상태, 행동, 최종 상태를 나타내는 이미지 트리플렛과 해당 텍스트 설명을 추출하였다.
모델 학습 시에는 행동과 최종 상태를 각각 별도의 모델로 학습하였으며, 입력 이미지의 잠재 공간 표현을 활용하여 배경을 유지하면서 객체 변환을 수행하도록 하였다.
정성적 및 정량적 평가 결과, GenHowTo는 기존 방법들에 비해 우수한 성능을 보였다. 특히 행동 생성 및 최종 상태 생성 모두에서 높은 정확도를 달성하였다.
Stats
입력 이미지와 동일한 배경에서 객체가 변형되도록 생성된다.
행동 생성 모델의 정확도는 0.66, 최종 상태 생성 모델의 정확도는 0.74로 나타났다.
기존 방법들에 비해 FID 점수가 낮아 생성 이미지의 품질이 우수하다.
Quotes
"GenHowTo는 입력 이미지와 텍스트 프롬프트를 활용하여 행동과 최종 상태를 생성할 수 있다."
"GenHowTo는 배경을 유지하면서 객체 변환을 수행할 수 있다."
"GenHowTo는 기존 방법들에 비해 우수한 성능을 보였다."