DyCoke는 비디오 대규모 언어 모델(VLLM)의 추론 속도를 높이기 위해 시각적 토큰을 동적으로 압축하는 기술로, 시간적 중복성을 활용한 토큰 병합 및 KV 캐시 동적 축소를 통해 성능 저하 없이 효율성을 향상시킨다.
본 논문에서는 이전 프레임 정보를 활용하고 동적 요소와 정적 요소를 구분하여 최적화하는 새로운 3단계 파이프라인을 제안하여 실시간 4D 동적 장면 재구성을 위한 빠른 온더플라이 학습 방법을 소개합니다.
대규모 컴퓨팅 자원 없이도 CLIP 모델을 효율적으로 훈련하고 실행할 수 있는 SiCLIP 프레임워크를 소개합니다. SiCLIP은 모델 구조 단순화, 지식 증류, 데이터 증강 및 새로운 손실 함수를 통해 경량화된 하드웨어에서도 경쟁력 있는 성능을 달성합니다.
본 논문에서는 패션 상품 이미지의 특징이 시장에서의 인기에 미치는 영향을 정량적으로 분석하고 예측하는 AI 기반 프레임워크를 제안합니다.
다양한 모달리티(텍스트, 이미지, 오디오)를 입력으로 받아 고품질 3D 객체를 생성하는 통합 프레임워크인 XBind를 소개합니다. XBind는 교차 모달 사전 정렬 기술을 사용하여 여러 모달리티를 공유된 공간에 매핑하고, 2D 및 3D 확산 모델에서 추출한 사전 지식을 활용하여 3D 객체 생성을 안내합니다.
원격 감지 이미지와 텍스트 간의 의미적 차이를 효과적으로 줄이기 위해 전역 및 지역 정보를 모두 활용하는 새로운 교차 모달 사전 정렬 방법(CMPAGL)을 제안하여 검색 정확도를 향상시킵니다.
비지도 학습 기반 사람 재식별(ReID) 모델이 새로운 도메인에 적응하면서 이전에 습득한 지식을 잊지 않고 유지하며, 나아가 학습하지 않은 새로운 도메인에도 일반화할 수 있는 듀얼 레벨 공동 적응 및 망각 방지(DJAA) 프레임워크를 제안합니다.
기존 트랜스포머 기반 초분광 영상 변화 감지 방법의 단점을 해결하기 위해 전역 및 지역 주의 모듈(GLAM)과 교차 게이트 피드포워드 네트워크(CGFN)를 통합한 새로운 모델인 GLAFormer를 제안하여, 저주파 및 고주파 신호를 모두 효과적으로 활용하여 변화 감지 정확도를 향상시켰습니다.
CosmoCLIP는 사전 훈련된 CLIP 모델을 천문 이미지에 특화하여 미세 조정하여 제로샷 분류 및 이미지-텍스트 검색 작업에서 우수한 성능을 달성하는 프레임워크입니다.
본 논문에서는 비전 트랜스포머의 계산 복잡성을 줄이기 위해 토큰의 시맨틱 유사성을 기반으로 클러스터링하는 새로운 방법인 시맨틱 동등 클러스터링(SEC)을 제안합니다. SEC는 단일 패스로 토큰을 효율적으로 클러스터링하고 균등한 토큰 분포를 보장하여 GPU 병렬 처리에 효과적입니다. SEC를 기반으로 하는 SECViT는 이미지 분류, 객체 감지, 인스턴스 분할 및 시맨틱 분할과 같은 다양한 비전 작업에서 우수한 성능을 보여줍니다. 또한 SEC는 LLaVA와 같은 멀티모달 대형 언어 모델(MLLM)에 적용되어 비전 언어 연결자 역할을 하여 모델의 효율성을 높이면서 성능을 유지하거나 향상시킵니다.