V2A-Mark는 AI 생성 비디오의 조작 탐지와 저작권 보호를 위한 혁신적인 다기능 딥 워터마킹 프레임워크입니다.
비주얼 섹션에서는 비디오 프레임에 위치 워터마크와 저작권 워터마크를 동시에 삽입합니다. 이를 통해 디코딩 네트워크가 독립적으로 조작 영역과 저작권 정보를 추출할 수 있습니다.
오디오 섹션에서는 오디오 샘플에 다기능 워터마크를 삽입하여 오디오 조작 구간을 식별하고 비주얼 저작권 정보를 재구성합니다.
시간 정렬 및 융합 모듈(TAFM)과 열화 프롬프트 학습(DPL) 메커니즘을 도입하여 탐지 정확도와 복호화 강건성을 향상시켰습니다. 또한 크로스모달 추출 메커니즘을 통해 오디오와 비디오 프레임의 정보를 결합하여 최종 저작권을 얻습니다.
실험 결과, V2A-Mark는 기존 방식 대비 탁월한 조작 탐지 정확도와 저작권 복구 성능을 보여줍니다. 이는 AIGC 비디오 시대에 지속 가능한 발전을 위해 필수적인 기술입니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문