本文提出了一種基於多模態大型語言模型 (MLLM) 的開源人臉偽造分析助手 FFAA,該助手不僅提供易於理解且可解釋的結果,還顯著提高了準確性和魯棒性,優於現有方法。
본 논문에서는 다중 모달 대형 언어 모델(MLLM) 기반의 설명 가능한 오픈 월드 얼굴 위조 분석 시스템인 FFAA를 제안하여 기존 얼굴 위조 분석 기술의 한계점을 극복하고, 사용자 친화적이고 설명 가능한 분석 결과를 제공하여 모델의 신뢰성을 높이고 실제 환경에서의 활용 가능성을 제시합니다.
本稿では、説明可能なオープンワールド顔偽造分析のための新しい視覚質問応答(VQA)タスクとベンチマーク、そして、マルチモーダル大規模言語モデル(MLLM)と複数回答知的決定システム(MIDS)で構成される顔偽造分析アシスタントFFAAを紹介する。
This research introduces a novel approach to deepfake detection using multimodal large language models (MLLMs) to analyze and explain forgery cues in facial images, significantly improving accuracy and robustness in open-world scenarios.
고품질의 카메라 제어 가능 인간 이미지 애니메이션을 위해서는 대규모의 고품질 데이터셋과 카메라 움직임을 고려한 학습 방법이 필수적이다.
高品質な人間画像アニメーションのための、大規模で高品質な、実世界と合成の動画データを組み合わせたデータセット「HumanVid」と、カメラ制御可能なベースラインモデル「CamAnimate」を提案する。
This paper introduces HumanVid, a large-scale dataset designed to advance research in human image animation, particularly focusing on achieving realistic and controllable animation with both human and camera motion.
本文介紹 4Real,這是一種利用影片擴散模型從文字提示生成逼真動態場景的新方法,透過利用預先訓練的影片生成模型,4Real 克服了現有方法對合成資料集的依賴,並產生具有增強真實感和結構完整性的動態場景。
4Real은 사전 훈련된 비디오 생성 모델에서 얻은 지식을 활용하여 텍스트 프롬프트에서 사실적인 동적 장면을 생성하는 새로운 텍스트-4D 장면 생성 파이프라인입니다.
従来の4Dシーン生成手法の写実性と多様性の限界を克服するために、大規模な現実世界のビデオデータセットで学習したビデオ生成モデルを活用した新しいパイプライン「4Real」を提案する。