멀티모달 언어 모델

Log på

indsigt - 멀티모달 언어 모델

거친 대응 관계를 통해 멀티모달 언어 모델의 시공간 추론 능력 향상

객체 추적 모델을 활용하여 이미지 간의 거친 대응 관계를 추출하고 이를 시각적 프롬프트로 활용하면, 멀티모달 언어 모델의 시공간 추론 능력을 효과적으로 향상시킬 수 있다.

비주얼 스케치패드: 멀티모달 언어 모델을 위한 시각적 사고의 연결고리로서의 스케치

SKETCHPAD는 멀티모달 언어 모델(LMM)이 시각적 스케치를 생성하고 활용하여 복잡한 수학 및 시각적 추론 작업을 해결하도록 하여 성능을 향상시키는 프레임워크입니다.

Mini-Omni: 실시간 스트리밍으로 생각하며 듣고 말하는 언어 모델

Mini-Omni는 실시간 음성 상호 작용을 위해 특별히 설계된 최초의 오픈 소스 멀티모달 대형 언어 모델로, 텍스트 기반 추론 능력을 음성 모달리티로 효율적으로 전이하여 실시간 스트리밍 출력을 지원합니다.

OMCAT: 모든 컨텍스트를 인지하는 트랜스포머

본 논문에서는 시각 및 음성 입력을 통합하는 멀티모달 언어 모델(LLM)이 미세 조정된 교차 모달 시간적 이해, 특히 음성 및 비디오 스트림에서 이벤트를 상호 연관시키는 데 어려움을 겪고 있는 문제를 해결하기 위해 새로운 데이터 세트인 OCTAV와 모델인 OMCAT를 제안합니다.

Produkter

Ressourcer