단일 RGB 이미지에서 가중치 손실 함수와 전이 학습을 이용하여 깊이 추정 정확도를 향상시킬 수 있다.
단일 RGB-D 입력에서 양손의 정확한 3D 메쉬를 복원하는 효과적인 엔드-투-엔드 프레임워크를 제안한다.
확산 모델을 활용하여 텍스트-시각 참조 임베딩을 오프라인으로 생성하고, 이를 이용해 지역-전역 유사도를 계산함으로써 학습 없이 오픈 어휘 의미 세그멘테이션을 수행하는 방법
본 연구는 소스 도메인 모델과 레이블이 없는 타겟 도메인 데이터를 활용하여 타겟 도메인에 대한 모델을 학습하는 새로운 접근법을 제안한다. 특히 기존 방식의 한계를 극복하기 위해 모든 예측을 활용하고 예측의 신뢰도에 따라 학습을 조절하는 방식을 도입하였다.
기존 텍스트 스포팅 기법의 단점을 해결하면서도 모듈성을 유지하는 새로운 접근법인 Bridging Text Spotting을 제안한다.
본 연구는 다중 스케일 정보와 전체 장면 특징을 활용하여 자연 이미지에서 인간의 시선 패턴을 정확하게 예측하는 새로운 인코더-디코더 모델을 제안한다.
언어 기반 CLIP 정규화와 인스턴스 인식 크로스 도메인 혼합을 통해 전방위 분할 성능을 향상시킴
PointRend 모델을 기반으로 한 앙상블 모델이 3D-FUTURE 데이터셋에서 최고의 성능을 달성했다. 이 모델은 기존 방법들에 비해 객체 경계를 훨씬 더 정밀하게 세그멘테이션할 수 있다.
프롬프트 기반 분할 모델의 취약성을 해결하기 위해 변형 시뮬레이션을 통해 모든 이미지를 비분할화하는 새로운 접근법을 제안한다.
본 논문은 시각적 프롬프트 튜닝을 활용하여 기존 지식을 유지하면서도 새로운 클래스를 효율적으로 학습할 수 있는 지속적 전체적 세그멘테이션 방법을 제안한다.