F2PAD는 산업용 이미지에서 정확한 픽셀 수준 이상 분할을 위해 다양한 특징 기반 방법을 향상시키는 새로운 최적화 프레임워크입니다.
본 논문은 이미지 복잡도를 효과적으로 학습하기 위해 레이블링되지 않은 데이터를 활용하는 비지도 학습 프레임워크인 CLIC을 제안하고, 이를 통해 기존 방법 대비 효율적인 이미지 복잡도 표현 학습이 가능함을 보여줍니다.
본 논문에서는 저선량 고해상도 전자 현미경(HREM) 이미지의 노이즈를 효과적으로 제거하는 제로샷 자기 지도 학습 프레임워크인 Noise2SR을 제안합니다. Noise2SR은 잡음이 있는 단일 HREM 이미지에서 노이즈 제거 성능을 향상시켜 재료 이미징 분야에서 이미지의 신호 대 잡음비(SNR)를 개선할 수 있는 잠재력을 제시합니다.
본 논문에서는 레이블이 지정되지 않은 비디오 데이터를 효과적으로 활용할 수 있는 자가 지도 트랜스포머 네트워크를 사용하는 새로운 사회적 집단 활동 인식(SoGAR) 접근 방식을 제안합니다.
대규모 비디오-텍스트 페어 데이터 부족으로 학습 기반 비디오 LLM 구축이 어려운 문제를 해결하기 위해, 이미지 LLM을 활용한 학습 없는 비디오 LLM, TS-LLaVA를 소개합니다. TS-LLaVA는 썸네일 이미지와 샘플링된 비주얼 토큰을 결합하여 효율적인 비주얼 토큰 압축 전략을 통해 비디오 이해 능력을 향상시킵니다.
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 아동의 행동 영상 데이터에서 자폐 스펙트럼 장애(ASD)를 진단하는 새로운 비지도 학습 방식을 제안합니다.
본 논문에서는 오일러 특성 변환(ECT)을 디지털 방식으로 정확하게 계산하는 알고리즘인 'Ectoplasm'을 제시하고, 이를 통해 비-미분 동형적 모양의 정렬 문제에 대한 새로운 접근 방식을 제시합니다.
SLYKLatent는 자기 지도 학습과 전이 학습을 결합하여 얼굴 이미지에서 풍부한 잠재 표현을 추출하고 시선 추정 정확도를 향상시키는 새로운 프레임워크입니다.
이 논문은 그래프 표현 학습(GRL)을 통해 얼굴 표정 인식(FER)에 적용된 다양한 방법론을 심층적으로 검토하여 FER 분야의 과제와 GRL의 잠재력을 강조합니다.
본 논문에서는 비디오 데이터에서 딥러닝 모델의 예측을 설명하기 위한 제거 기반 프레임워크인 REVEX를 제안하고, 6가지 기존 방법을 비디오에 적용하여 설명력을 평가하고 한계점을 분석합니다.