캐릭터는 스토리텔링에서 중요한 역할을 하지만, 기존 시각적 스토리 생성 모델들은 이를 간과해왔다. 본 연구는 캐릭터 중심의 시각적 스토리 생성 과제를 제안하고, 이를 위한 새로운 데이터셋 VIST++를 구축하였다. 또한 VIST++를 활용하여 훈련된 모델은 일관되고 구체적인 캐릭터 언급을 통해 더 풍부하고 생동감 있는 스토리를 생성할 수 있다.
시각적 질문 답변을 위한 해석 가능한 설계 모델인 동적 단서 병목 모델(DCLUB)을 제안한다. DCLUB는 중간 단계의 인간 가독성 있는 설명을 제공하여 모델의 예측 과정을 이해할 수 있게 하면서도 기존 블랙박스 모델과 유사한 성능을 달성한다.