사전 학습된 비전 트랜스포머를 활용하여 소수 샘플 클래스 증분 학습 성능을 향상시키기 위해 클래스 간 통계량 보정 기법을 제안한다.
본 연구는 레이블이 없는 데이터를 활용하여 다중 카메라 환경에서 다중 사람의 3D 자세를 추정하는 방법을 제안한다. 제안하는 방법은 2D 스켈레톤 검출, 다중 뷰 스켈레톤 매칭, 3D 자세 추정의 3단계로 구성되며, 특히 후두 두 단계에서 자기 지도 학습 기반 접근법을 사용하여 레이블이 필요 없는 장점을 가진다.
개방형 테스트 시간 적응 상황에서 기존 방법들의 성능 저하 문제를 해결하기 위해, 분포 인식 필터링과 알려진 클래스 샘플에 대한 엔트로피 최소화, 알려지지 않은 클래스 샘플에 대한 엔트로피 최대화를 통합한 새로운 프레임워크를 제안한다.
다양한 클래스 분포를 모델링하기 위해 서로 다른 로짓 조정 강도로 훈련된 다중 전문가를 활용하여 고품질의 의사 레이블을 생성하고, 클래스별 배치 정규화 메커니즘을 통해 특징 분포 불일치 문제를 해결한다.
단일 노이즈 패턴을 이용하여 다양한 각도의 객체 인식을 효과적으로 방해할 수 있는 새로운 "범용 노이즈" 기법을 제안한다.
본 연구는 2D 데이터만을 사용하여 장면 표현과 오픈 어휘 의미를 동시에 학습할 수 있는 일반화 가능한 신경 의미 필드 모델을 제안한다. 이를 통해 기존 방법들의 한계를 극복하고 2D와 3D 오픈 어휘 의미 분할 분야에서 최첨단 성능을 달성한다.
ODG-CLIP은 CLIP의 비전-언어 모델을 활용하여 알려진 범주와 새로운 범주를 모두 고려하는 다중 클래스 분류기를 제안합니다. 이를 위해 알 수 없는 클래스 프롬프트를 모델링하고, 안정적인 확산 모델을 사용하여 프록시 이미지를 생성합니다. 또한 도메인 특화 프롬프트 학습과 프롬프트 기반 시각적 임베딩 향상을 통해 오픈 도메인 일반화 성능을 높입니다.
소량의 ID 데이터만 사용하는 상황에서 CLIP 모델을 활용하여 신뢰할 수 있는 OOD 데이터를 합성하고, 이를 통해 ID와 OOD 간의 경계를 효과적으로 학습할 수 있는 방법을 제안한다.
본 연구는 현실적이고 다양한 손-물체 상호작용 이미지를 생성하여 3D 손 메시 복원 성능을 크게 향상시킨다.
본 연구에서는 기존의 다중 레이블 객체 탐지 모델을 확장하여 기본 객체와 함께 자주 발생하는 객체를 예측하는 새로운 방법을 제안한다. 이를 통해 객체 간의 관계와 문맥적 정보를 활용할 수 있다.