本論文では、個人向け拡散モデル(PDM)における防御的摂動のメカニズムをショートカット学習の観点から分析し、潜在空間における画像とプロンプト間のミスアラインメントが脆弱性の原因であることを明らかにした。その上で、画像修復技術と対照的デカップリング学習を用いた体系的な防御フレームワークを提案し、敵対的な摂動に対するPDMの堅牢性を向上させている。
本文介紹了一種訓練大型多模態模型的方法,使其能夠同時理解、生成和編輯圖像,並在這些任務中均取得優異的表現。
본 논문에서는 대규모 멀티모달 모델(LMM)이 이미지 이해, 생성 및 편집을 동시에 수행하는 동시에 경쟁력 있는 성능을 유지할 수 있도록 하는 포괄적인 프레임워크인 GenLLaVA(Generative Large Language and Visual Assistant)를 소개합니다.
本稿では、画像理解、生成、編集の能力を単一のモデルに統合し、従来のモデルに見られた性能低下を克服した、新しい大規模マルチモーダルモデルGenLLaVAとその学習手法を提案する。
This paper introduces GenLLaVA, a large multimodal model trained with a novel "generative visual instruction tuning" approach, demonstrating superior performance in visual understanding, generation, and editing tasks compared to previous models by effectively unifying these capabilities within a single architecture.
CryoSPIN이라는 새로운 준-암호화 접근 방식을 통해 ab-initio Cryo-EM 재구성에서 포즈 추정의 정확성과 효율성을 향상시키고, 다중 모드 포즈 분포를 효과적으로 처리하여 기존 방법보다 빠르고 정확한 재구성을 달성했습니다.
CryoSPINは、多峰性姿勢分布を効果的に処理できるマルチヘッドエンコーダと、直接的な姿勢最適化による高速かつ正確な収束を可能にする半償却推論スキームを通じて、ab-initioクライオ電子顕微鏡再構成を改善する新しい手法である。
CryoSPIN, a novel semi-amortized inference method for ab-initio cryo-EM reconstruction, surpasses existing techniques by combining a multi-head encoder for handling pose uncertainty with direct pose optimization for faster and more accurate convergence.
本文提出了一種名為 HGM 的新型可泛化單視角人體高斯重建框架,透過結合 SMPL-X 模型和擴散先驗,從單一圖像中重建出高品質且視角一致的三維人體模型,並可應用於新的人物。
本文提出了一種稱為 MEANSPARSE 的技術,透過在訓練後的模型中對以平均值為中心的特征進行稀疏化處理,來提高卷積神經網路和基於注意力的神經網路對抗對抗性範例的穩健性。