M3DocRAG는 텍스트 기반 RAG의 한계를 극복하고 대규모 문서에서 이미지를 포함한 다양한 양식의 정보를 활용하여 질문에 답변하는 멀티모달 RAG 프레임워크입니다.
본 논문에서는 희소한 입력 뷰에서 사실적인 360도 장면을 생성하기 위해 사전 학습된 Stable Video Diffusion 모델과 3D Gaussian Splatting을 결합한 새로운 프레임워크인 MVSplat360을 제안합니다.
본 논문에서는 레이블이 지정된 실측 SAR 데이터 부족 문제를 해결하기 위해 시뮬레이션 데이터를 활용한 준지도 학습 도메인 적응(SSDA) 기반 SAR 표적 인식 프레임워크를 제안하며, 점진적 다단계 정렬을 통해 시뮬레이션 데이터와 실측 데이터 간의 차이를 효과적으로 줄여 인식 성능을 향상시킵니다.
저해상도 원격 감지 이미지의 시공간적 특징을 효과적으로 활용하여 고해상도 이미지를 생성하는 새로운 다중 이미지 초고해상도 프레임워크인 ESC-MISR를 제안한다.
본 논문에서는 다이나믹한 환경 밝기 변화에 강력한 멀티 모달 이미지 융합을 위해 밝기 적응 게이트(BAG) 모듈을 갖춘 밝기 적응 다이나믹 이미지 융합 프레임워크인 BA-Fusion을 제안합니다.
본 논문에서는 다양한 카메라 위치 및 태양 방향을 고려하여 3D 구름 복원을 수행하는 최초의 확장 가능한 DNN 기반 시스템인 PIVOT-CT를 제안합니다.
이벤트 카메라 데이터 처리에 활용되는 FPGA 기반 그래프 컨볼루션 신경망의 효율성을 향상시키기 위해 LUT 사용량을 줄이는 '2단계 컨볼루션' 방법을 제안한다.
본 논문은 동적 장면에서 단안 깊이 추정의 어려움을 해결하기 위해 픽셀의 움직임을 예측하는 새로운 딥러닝 모델인 PMPNet을 제안하고, 픽셀 이동 삼각 제약 손실 함수 및 변형 가능한 지원 창 모듈을 통해 기존 방법보다 정확하고 엣지 블러링 현상이 줄어든 깊이 맵을 생성하는 방법을 제시합니다.
본 논문에서는 대규모 비전-언어 모델(LVLM)의 환각 현상을 세분화하여 평가하는 새로운 벤치마크인 H-POPE를 제안하고, 이를 통해 모델이 객체의 존재뿐만 아니라 속성에 대한 환각 현상에도 취약함을 보여줍니다.
본 논문에서는 레이블링된 데이터 부족 문제를 해결하기 위해 키워드 개선을 통한 의사 레이블링 기법을 활용한 Few-Shot 비디오 캡셔닝 프레임워크를 제안합니다.