인간의 학습 메커니즘에서 영감을 받아, 본 논문에서는 MLLM이 시각적 질문에 대한 답변 능력뿐만 아니라 질문 생성 및 평가 능력까지 갖추도록 하는 LOVA3 프레임워크를 제안합니다.
본 논문에서는 암시적 문자 정보를 활용하여 손글씨 수학식 인식 성능을 향상시키는 새로운 방법인 ICAL(Implicit Character-Aided Learning)을 제안합니다.
기존 GAN 기반 텍스처 합성 모델의 제한적인 출력 크기 및 패딩으로 인한 경계 부자연스러움 문제를 해결하기 위해, 본 논문에서는 로컬 패딩을 활용한 패치 기반 GAN 모델을 제안하여 무한대 크기의 고품질 텍스처를 생성합니다.
본 논문은 도시 홍수 매핑을 위한 SAR 데이터 활용에 대한 포괄적인 리뷰를 제공하며, SAR 이미지에서 홍수의 특징, 다양한 접근 방식, 데이터 세트, 미래 연구 방향, 그리고 실제 적용 사례를 제시합니다.
M3DocRAG는 텍스트 기반 RAG의 한계를 극복하고 대규모 문서에서 이미지를 포함한 다양한 양식의 정보를 활용하여 질문에 답변하는 멀티모달 RAG 프레임워크입니다.
본 논문에서는 희소한 입력 뷰에서 사실적인 360도 장면을 생성하기 위해 사전 학습된 Stable Video Diffusion 모델과 3D Gaussian Splatting을 결합한 새로운 프레임워크인 MVSplat360을 제안합니다.
본 논문에서는 레이블이 지정된 실측 SAR 데이터 부족 문제를 해결하기 위해 시뮬레이션 데이터를 활용한 준지도 학습 도메인 적응(SSDA) 기반 SAR 표적 인식 프레임워크를 제안하며, 점진적 다단계 정렬을 통해 시뮬레이션 데이터와 실측 데이터 간의 차이를 효과적으로 줄여 인식 성능을 향상시킵니다.
저해상도 원격 감지 이미지의 시공간적 특징을 효과적으로 활용하여 고해상도 이미지를 생성하는 새로운 다중 이미지 초고해상도 프레임워크인 ESC-MISR를 제안한다.
본 논문에서는 다이나믹한 환경 밝기 변화에 강력한 멀티 모달 이미지 융합을 위해 밝기 적응 게이트(BAG) 모듈을 갖춘 밝기 적응 다이나믹 이미지 융합 프레임워크인 BA-Fusion을 제안합니다.
본 논문에서는 다양한 카메라 위치 및 태양 방향을 고려하여 3D 구름 복원을 수행하는 최초의 확장 가능한 DNN 기반 시스템인 PIVOT-CT를 제안합니다.