Core Concepts
V2A-Mark는 비디오 프레임과 오디오에 보이지 않는 크로스모달 워터마크를 삽입하여 정확한 조작 영역 탐지와 저작권 보호를 실현합니다.
Abstract
V2A-Mark는 AI 생성 비디오의 조작 탐지와 저작권 보호를 위한 혁신적인 다기능 딥 워터마킹 프레임워크입니다.
비주얼 섹션에서는 비디오 프레임에 위치 워터마크와 저작권 워터마크를 동시에 삽입합니다. 이를 통해 디코딩 네트워크가 독립적으로 조작 영역과 저작권 정보를 추출할 수 있습니다.
오디오 섹션에서는 오디오 샘플에 다기능 워터마크를 삽입하여 오디오 조작 구간을 식별하고 비주얼 저작권 정보를 재구성합니다.
시간 정렬 및 융합 모듈(TAFM)과 열화 프롬프트 학습(DPL) 메커니즘을 도입하여 탐지 정확도와 복호화 강건성을 향상시켰습니다. 또한 크로스모달 추출 메커니즘을 통해 오디오와 비디오 프레임의 정보를 결합하여 최종 저작권을 얻습니다.
실험 결과, V2A-Mark는 기존 방식 대비 탁월한 조작 탐지 정확도와 저작권 복구 성능을 보여줍니다. 이는 AIGC 비디오 시대에 지속 가능한 발전을 위해 필수적인 기술입니다.
Stats
비디오 프레임과 오디오 샘플에 삽입된 워터마크의 PSNR은 각각 40.83dB, 28.29dB로 높은 품질을 유지합니다.
다양한 열화 상황에서 V2A-Mark의 조작 탐지 F1-Score는 0.9 이상, 저작권 복구 정확도는 99% 이상을 달성합니다.
오디오 조작 구간 탐지 AUC는 최대 99.63%로 매우 정확합니다.
Quotes
"V2A-Mark는 비디오 프레임과 오디오에 보이지 않는 크로스모달 워터마크를 삽입하여 정확한 조작 영역 탐지와 저작권 보호를 실현합니다."
"시간 정렬 및 융합 모듈(TAFM)과 열화 프롬프트 학습(DPL) 메커니즘을 도입하여 탐지 정확도와 복호화 강건성을 향상시켰습니다."
"V2A-Mark는 AIGC 비디오 시대에 지속 가능한 발전을 위해 필수적인 기술입니다."