자원 및 시간 제약 네트워크 환경에서 이전에 수신된 데이터를 활용하여 누락된 프레임 세그먼트를 예측함으로써 부분적으로 수신된 데이터로부터 프레임을 복원할 수 있는 FrameCorr 딥러닝 기반 솔루션을 제안한다.
자동 전사된 오디오 데이터만으로 고품질의 다중 트랙 상징적 음악 생성 모델을 학습할 수 있으며, 사용자 입력을 통해 유연하게 제어할 수 있는 SymPAC 프레임워크를 제안한다.
본 연구는 레이더 데이터의 희소성과 모호성 문제를 해결하기 위해 2D와 3D 레이더 특징을 통합하고 보조 과제로 포인트 클라우드 업샘플링을 도입하여 정확한 깊이 추정을 달성하였다.
이 논문은 Replica 데이터셋의 실내 장면을 기반으로 한 1000개의 다양한 공간 질문과 답변으로 구성된 데이터셋인 Space3D-Bench를 소개한다. 이 데이터셋은 지리 정보 시스템 연구에서 제안된 공간 질문 분류법을 실내 공간에 적용하여 균형있게 구성되었다. 또한 텍스트와 비전 언어 모델을 활용한 자동 평가 시스템을 제안하고, 이를 통해 신뢰성 있는 평가가 가능함을 입증했다. 마지막으로 Retrieval-Augmented Generation 기반의 기준선 시스템을 제시하여 67%의 정확도를 달성했다.
컴퓨터 비전 알고리즘을 사용하여 군중 장면의 정보를 추출하고 조직적인 움직임을 자동으로 탐지 및 추적할 수 있는 시스템을 개발하고자 한다.
사용자가 이미지를 보면서 음성 안내를 듣는 동안 사용자의 시선 움직임을 실시간으로 예측하는 것이 핵심 내용입니다.
Make-A-Shape는 10 million 개 이상의 다양한 3D 형상을 활용하여 학습된 대규모 3D 생성 모델로, 복잡한 기하학적 세부 사항, 합리적인 구조, 비트리비얼한 위상, 깨끗한 표면을 가진 다양한 3D 형상을 무조건적으로 생성할 수 있는 능력을 보여줍니다.
제안된 FFGT 모델은 그래프 전체에 걸친 전역 주의와 국소 에고넷에 초점을 맞춘 주의를 결합하여, 그래프 데이터의 전역적 상관관계와 국소 하위구조 정보를 모두 효과적으로 학습할 수 있다.
Caterpillar는 기존 CNN 및 ViT 모델의 단점을 극복하고 지역적 특징과 전역적 특징을 효과적으로 모델링할 수 있는 새로운 순수 MLP 아키텍처이다.
원시 다분광 위성 영상을 활용하여 열 이상 탐지를 위한 자동화된 데이터셋 생성 방법을 제안한다.