이벤트 카메라 데이터 처리에 활용되는 FPGA 기반 그래프 컨볼루션 신경망의 효율성을 향상시키기 위해 LUT 사용량을 줄이는 '2단계 컨볼루션' 방법을 제안한다.
본 논문은 동적 장면에서 단안 깊이 추정의 어려움을 해결하기 위해 픽셀의 움직임을 예측하는 새로운 딥러닝 모델인 PMPNet을 제안하고, 픽셀 이동 삼각 제약 손실 함수 및 변형 가능한 지원 창 모듈을 통해 기존 방법보다 정확하고 엣지 블러링 현상이 줄어든 깊이 맵을 생성하는 방법을 제시합니다.
본 논문에서는 대규모 비전-언어 모델(LVLM)의 환각 현상을 세분화하여 평가하는 새로운 벤치마크인 H-POPE를 제안하고, 이를 통해 모델이 객체의 존재뿐만 아니라 속성에 대한 환각 현상에도 취약함을 보여줍니다.
본 논문에서는 레이블링된 데이터 부족 문제를 해결하기 위해 키워드 개선을 통한 의사 레이블링 기법을 활용한 Few-Shot 비디오 캡셔닝 프레임워크를 제안합니다.
OccLoff는 3D 점유 예측에서 라이다와 카메라 특징을 효율적으로 융합하고, 더욱 정확한 예측을 위해 차별적인 특징 학습에 중점을 둔 프레임워크입니다.
이 논문에서는 다양한 조명 조건에서 강 robust하고 정확한 깊이 추정을 위해 열 이미지와 가시광선 이미지를 통합하는 새로운 프레임워크를 제안합니다.
텍스트-비전 생성 모델의 부족한 프롬프트 정보로 인한 환각 현상을 줄이기 위해, 외부 지식 베이스 또는 언어 모델 자체의 지식을 맥락에 따라 반복적으로 탐색하여 풍부한 정보를 생성하고 사실적인 시각 콘텐츠 합성을 가능하게 하는 맥락적 지식 탐색 (CKPT) 프레임워크를 제안한다.
S-JEA는 공동 임베딩 아키텍처를 계층적으로 쌓아 더욱 추상적이고 계층적인 시각적 의미 표현을 학습하여, 다운스트림 작업 성능을 향상시키고 의미적으로 분리된 하위 개념 클러스터를 생성합니다.
본 논문에서는 사전 학습된 적대적 학습(AT) 모델에 적용 가능한 테스트 시간 위협 모델 불가지론적 알고리즘인 CODIP를 제안하여, 조건부 이미지 변환과 거리 기반 예측을 통해 다양한 공격 유형에 대한 모델의 강건성을 향상시킵니다.
MS-DETR은 다중 스펙트럼 이미지에서 보행자를 정확하게 감지하기 위해 느슨하게 결합된 퓨전 전략과 인스턴스 인식 모달리티 균형 최적화 전략을 활용하는 새로운 end-to-end 딥러닝 모델입니다.