LLM2CLIP은 대규모 언어 모델(LLM)의 강력한 텍스트 이해 능력을 활용하여 CLIP의 시각적 표현 학습 능력을 향상시키는 새로운 접근 방식입니다.
HourVideoは、最先端のマルチモーダルモデルが人間レベルの長編ビデオ理解能力に達するにはまだ大きな隔たりがあることを示す、1時間の長編ビデオを理解する能力を評価するための新しいベンチマークデータセットである。
Current multimodal models struggle to comprehend hour-long videos, highlighting a significant gap between their capabilities and human-level performance on tasks requiring long-term visual understanding.
LLM2CLIPは、大規模言語モデル(LLM)のテキスト理解能力とオープンワールド知識を活用し、従来のCLIPモデルの視覚表現学習を大幅に向上させる手法である。
LLM2CLIP leverages the power of large language models (LLMs) to significantly improve the visual representation learning capabilities of CLIP, achieving state-of-the-art performance in various cross-modal tasks.
이 논문에서는 사전 훈련된 이미지-비디오 확산 모델을 활용하여 사용자가 지정한 대로 객체 및 카메라 움직임을 제어할 수 있는 새로운 제로샷, 자가 안내 방식인 SG-I2V를 제안합니다.
SG-I2V enables zero-shot, controllable image-to-video generation by leveraging and aligning semantic features within a pre-trained diffusion model, eliminating the need for fine-tuning or external datasets.
This paper introduces a novel method for enhancing Neural Radiance Fields (NeRF) to accurately model and render planar reflections, improving the realism and accuracy of scene reconstruction for novel view synthesis.
본 논문에서는 텍스트, 이미지, 포인트 클라우드 또는 이들의 조합과 같은 다양한 사용자 입력을 기반으로 파라메트릭 CAD 모델을 생성할 수 있는 통합 시스템인 CAD-MLLM을 제안합니다.
本稿では、テキスト、画像、点群などのマルチモーダル入力に基づいてパラメトリックCADモデルを生成できる、MLLMを用いた新しいCAD生成システム、CAD-MLLMを紹介する。