GraphVL이라는 새로운 프레임워크를 사용하여 라벨이 지정되지 않은 이미지를 알려진 클래스와 새로운 클래스로 클러스터링하는 작업에서 기존 방법보다 우수한 성능을 달성했습니다.
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 이미지 내 키포인트의 의미를 이해하고 위치를 특정하는 새로운 멀티모달 모델인 KptLLM을 제시합니다.
ChatTracker는 멀티모달 대규모 언어 모델(MLLM)을 활용하여 시각적 객체 추적 성능을 향상시키는 새로운 프레임워크입니다.
인간의 시각 피질에서 영감을 받은 모션 에너지 모델은 무작위 점 자극에 대한 제로샷 일반화에서 최첨단 광학 흐름 모델을 능가하여 인간과 유사한 성능을 달성합니다.
HiMemFormer는 다중 에이전트 환경에서 행동 예측을 위해 전역 컨텍스트 정보와 에이전트별 정보를 계층적으로 활용하는 트랜스포머 기반 모델입니다.
사전 훈련된 대규모 비전 모델을 새로운 작업에 효율적으로 적용하기 위해 인간의 시각 인지에서 영감을 받아 공간 정보와 주파수 정보를 모두 활용하는 새로운 프롬프트 튜닝 방법인 VFPT를 제안합니다.
본 논문은 라벨링된 데이터 없이 이미지에서 객체를 찾아내는 비지도 객체 탐색 분야에 대한 포괄적인 조사를 제공하며, 기존 연구들을 작업 유형 및 기술 계열에 따라 분류하고, 데이터 세트 및 평가 지표를 검토하여 해당 분야에 대한 통찰력 있는 관점을 제시합니다.
3D 비전에서 저품질 포인트 클라우드 데이터를 향상시키기 위한 딥러닝 기반 방법의 최신 연구 동향을 제시합니다.
이 연구는 점수 기반 조건부 밀도 추정 프레임워크를 사용하여 비디오의 다음 프레임을 예측하는 새로운 방법을 제시하며, 특히 폐색 경계를 효과적으로 처리하고 예측의 불확실성을 정량화하는 데 중점을 둡니다.
CausAdv는 컨볼루션 신경망(CNN)의 적대적 예제를 탐지하기 위해 인과 추론, 특히 반사실적 추론을 활용하는 프레임워크를 제시합니다.