BCTR 모델은 VLPM에서 지식을 추출하여 의미적으로 정렬된 공간에서 양방향 조건화를 통해 장면 그래프 생성 성능을 향상시키는 새로운 방법을 제시합니다.
본 논문에서는 사전 정의된 레이블 후보 없이 이미지에서 객체 명사를 직접 생성하는 새로운 제로샷 이미지 분류 모델인 NOVIC를 제안합니다.
본 논문에서는 멀티모달 대규모 언어 모델(MLLM)의 웹페이지 이해 및 HTML 코드 생성 능력을 향상시키기 위해 대규모 웹페이지-코드 데이터셋인 Web2Code와 이를 평가하기 위한 새로운 프레임워크를 제안합니다.
LightStereo는 3D 비용 볼륨의 채널 차원에 집중하여 2D 비용 집계를 효율적으로 수행하는 가벼운 스테레오 매칭 네트워크로, 정확도와 효율성을 모두 개선하여 실시간 애플리케이션에 적합하다.
본 논문에서는 의료 영상 분할 작업에서 적은 수의 스크리블 주석과 풍부한 레이블 없는 데이터를 활용하는 SP³라는 새로운 준지도 학습 방법을 제안합니다. 슈퍼픽셀 기반 의사 레이블 생성 및 정제, 동적 임계값 필터링, 슈퍼픽셀 수준 불확실성 기반 학습을 통해 기존 방법보다 우수한 성능을 달성했습니다.
SL-YOLO는 복잡한 환경에서 드론을 이용한 실시간 소형 표적 감지를 위해 개발된 모델로, 향상된 정확도와 효율성을 제공합니다.
본 논문에서는 레이블이 지정된 데이터 없이 텍스트 프롬프트만을 사용하여 이미지에서 객체의 위치를 정확하게 파악하는 새로운 제로샷 객체 위치 파악(ZSOL) 프레임워크를 제안합니다.
본 논문에서는 기존의 폐쇄형 어휘 기반 시청각 이벤트 지역화(AVEL) 작업을 넘어, 학습 과정에서 볼 수 없었던 이벤트 카테고리를 포함하는 테스트 데이터를 처리할 수 있는 새로운 작업인 개방형 어휘 기반 시청각 이벤트 지역화(OV-AVEL) 작업을 제안하고, 이를 위한 데이터셋과 평가 지표, 기준 모델을 제시합니다.
이벤트 카메라 데이터에서 희소하게 나타나는 위성 신호를 보존하면서 노이즈를 효과적으로 제거하기 위해 다양한 노이즈 필터링 알고리즘을 비교 분석하고 새로운 알고리즘을 제시한다.
DeforHMR은 사전 훈련된 비전 트랜스포머(ViT) 인코더에서 추출한 시각적 특징을 효과적으로 회귀 분석하기 위해 변형 가능한 교차 어텐션 메커니즘을 사용하는 새로운 회귀 기반 단일 이미지 3D 인체 메시 복원 프레임워크로, 기존 방법보다 뛰어난 성능을 달성했습니다.