PixelBytes는 텍스트, 오디오, 픽셀화된 이미지(스프라이트)와 같은 다양한 데이터 유형을 통합하는 새로운 멀티모달 표현 학습 방법을 제안한다.
다양한 멀티모달 정보(게임 이벤트 로그, 캐스터 음성, 관중 채팅)를 활용하여 게임 상황을 이해하고 관중 참여형 해설을 생성하는 모델을 제안한다.
비디오와 오디오 데이터를 시간 정렬된 모달리티로 처리하고, 문맥 정보를 별도의 자기회귀 모델로 처리하여 효율적이고 확장 가능한 멀티모달 모델을 제안한다.
멀티모달 학습에서 각 모달리티의 세부적인 기여도를 평가하고, 이를 바탕으로 저기여 모달리티의 학습을 강화하여 모달리티 간 협력을 향상시킨다.
상태 공간 모델을 활용하여 멀티모달 학습 과제를 해결하는 VL-Mamba 모델을 제안한다. 이를 통해 기존 트랜스포머 기반 모델의 계산 복잡도 문제를 해결하고자 한다.
DREAMLLM은 언어와 이미지 모달리티의 통합적 학습을 통해 멀티모달 이해와 생성 능력을 향상시킨다.
오디오-이미지 시간적 일치를 개선하여 오디오-텍스트 교차 검색 성능을 향상시킬 수 있다.
오디오-이미지 시간적 일치를 개선하여 오디오-텍스트 크로스 리트리벌 성능을 향상시킬 수 있다.
본 연구는 비주얼, 텍스트 및 기타 신호를 효율적으로 토큰화할 수 있는 통합 코드북을 학습하는 UniCode라는 혁신적인 접근법을 제안한다.