동영상 전체를 처리하지 않고도 실시간으로 상세한 텍스트 설명을 생성할 수 있는 스트리밍 모델을 제안한다. 이를 위해 고정 크기의 메모리 모듈과 새로운 스트리밍 디코딩 알고리즘을 도입하였다.
본 연구는 대규모 비주석 동영상을 활용하여 생성된 의사 경계와 캡션을 최적화하는 DIBS 프레임워크를 제안합니다. 다양한 대형 언어 모델을 활용하여 풍부하고 정확한 캡션 후보를 생성하고, 이에 대응되는 의사 경계를 최적화하는 알고리즘을 개발했습니다. 또한 온라인 경계 정제 전략을 통해 의사 경계의 품질을 지속적으로 향상시킵니다.