Diffusion 모델 기반 이미지 증강 기법들은 사실성 또는 다양성 중 하나에만 집중하는 경향이 있어 데이터 부족 분류 문제에서 성능 향상에 제한적이며, 이를 해결하기 위해 사실적이면서도 다양한 이미지를 생성하는 Inversion Circle Interpolation 기반 Diffusion 이미지 증강 기법(Diff-II)을 제안한다.
Diffusion-based image augmentation methods often struggle to balance faithfulness (preserving original image characteristics) and diversity (creating varied synthetic images), limiting their effectiveness in data-scarce scenarios. This paper introduces Diff-II, a novel method using inversion circle interpolation and two-stage denoising to generate both faithful and diverse augmented images, improving classification performance across various tasks.
透過利用輕量級的目標追蹤模型來提取圖像間的粗略視覺對應關係,並將其作為視覺提示輸入多模態語言模型,可以顯著提升模型在需要時空推理能力的下游任務中的表現,例如 3D 場景理解、長影片理解和導航任務。
MeshAnything V2 introduces Adjacent Mesh Tokenization (AMT), a novel method that significantly improves the efficiency and quality of artist-created mesh generation by representing faces with single vertices, resulting in more compact and well-structured token sequences for enhanced sequence learning.
本文介紹了一個用於人體圖像動畫的大規模高質量數據集 HumanVid,該數據集結合了真實世界和合成數據,並包含精確的人體和相機運動註釋,旨在解決該領域缺乏高質量公共數據集和忽視相機運動的問題。
객체 추적 모델을 활용하여 이미지 간의 거친 대응 관계를 추출하고 이를 시각적 프롬프트로 활용하면, 멀티모달 언어 모델의 시공간 추론 능력을 효과적으로 향상시킬 수 있다.
マルチモーダル言語モデル (MLLM) の時空間推論能力は、画像間の粗対応付けを視覚的なプロンプトとして与えることで、モデルのアーキテクチャやタスク固有のファインチューニングなしに大幅に向上させることができる。
Coarse Correspondences, a simple visual prompting method using object tracking, significantly improves spatial-temporal reasoning in multimodal language models without requiring architectural changes or task-specific fine-tuning.
本文提出了一種利用多模態查詢(包含參考圖像和精煉文字)進行影片事件定位的新方法,並建立了一個新的評估基準 ICQ 及其測試資料集 ICQ-Highlight,同時探討了不同參考圖像風格和精煉文字對定位效果的影響。
본 논문에서는 이미지를 통합하여 의미론적 쿼리를 보다 유연하게 표현하는 멀티모달 쿼리(MQ)를 사용하여 비디오에서 이벤트를 지역화하는 새로운 작업과 벤치마크(ICQ)를 제안하며, 기존 비디오 지역화 모델을 새로운 작업에 적용하기 위한 방법들을 제시하고, 다양한 스타일의 참조 이미지와 개선 텍스트를 사용하여 모델 성능을 평가합니다.