CosmoCLIP는 사전 훈련된 CLIP 모델을 천문 이미지에 특화하여 미세 조정하여 제로샷 분류 및 이미지-텍스트 검색 작업에서 우수한 성능을 달성하는 프레임워크입니다.
본 논문에서는 비전 트랜스포머의 계산 복잡성을 줄이기 위해 토큰의 시맨틱 유사성을 기반으로 클러스터링하는 새로운 방법인 시맨틱 동등 클러스터링(SEC)을 제안합니다. SEC는 단일 패스로 토큰을 효율적으로 클러스터링하고 균등한 토큰 분포를 보장하여 GPU 병렬 처리에 효과적입니다. SEC를 기반으로 하는 SECViT는 이미지 분류, 객체 감지, 인스턴스 분할 및 시맨틱 분할과 같은 다양한 비전 작업에서 우수한 성능을 보여줍니다. 또한 SEC는 LLaVA와 같은 멀티모달 대형 언어 모델(MLLM)에 적용되어 비전 언어 연결자 역할을 하여 모델의 효율성을 높이면서 성능을 유지하거나 향상시킵니다.
Stable Diffusion과 같은 텍스트-이미지 생성 AI 모델은 인종 및 성별에 대한 편향을 담고 있어 사회적 고정관념을 강화하고 동질화를 심화시킬 수 있으며, 이를 해결하기 위해 포괄적이고 다양성을 갖춘 AI 모델 개발이 시급하다.
본 논문에서는 단일 이미지 3D 재구성 작업에서 발생하는 catastrophic forgetting 문제를 해결하기 위해 변형 분포 사전 확률과 saliency 맵 기반 경험 재생 방법을 결합한 새로운 지속 학습 프레임워크를 제안합니다.
딥러닝 기반 컴퓨터 비전 시스템의 취약점인 물리적 적대적 공격에 대한 심층적인 이해를 제공하고, 공격 방식, '적대적 매체' 개념, 평가 지표(hiPAA) 및 미래 연구 방향을 제시합니다.
이미지의 세밀한 특징 추출은 가벼운 컨볼루션에 맡기고, 무거운 어텐션 연산은 추상화된 의미 슬롯에 적용하여 효율성을 높인 새로운 비전 백본 구조를 제안한다.
본 논문에서는 복잡한 3D 장면에서 여러 객체에 대한 3D 분할 마스크와 3D 공간 관계 설명을 포함하는 텍스트 설명을 생성하는 멀티 객체 3D 추론 분할 작업을 제안합니다.
본 논문에서는 사전 훈련된 컴퓨터 비전 모델(SAM)을 퓨샷 학습 설정에서 새로운 작업(다중 클래스 의미론적 분할)에 적용하기 위해 그래디언트 학습 없이 자동화된 프롬프트 생성을 활용하는 방법을 제안합니다.
이미지 초해상도 신경망은 저역 통과 필터링과 학습된 사전 지식을 활용하여 고주파 정보를 주입하는 방식으로 작동한다.
본 논문에서는 비디오의 높은 정보 중복성을 활용하여 컴팩트한 모션 레이턴트 공간으로 인코딩하는 Reducio-VAE를 제안하고, 이를 기반으로 고해상도 비디오를 빠르게 생성하는 Reducio-DiT 모델을 소개합니다.