이 논문은 Fréchet 비디오 거리(FVD) 메트릭의 편향성을 분석하고 개선 방안을 제시한다.
FVD 메트릭이 개별 프레임의 품질에 편향되어 있음을 확인하였다. 동일한 프레임 품질에서 시간적 일관성이 크게 다른 두 비디오 세트를 생성하여 실험한 결과, FVD 메트릭은 시간적 일관성이 낮은 비디오 세트를 더 선호하는 것으로 나타났다.
생성된 비디오 후보군에서 FVD 점수를 최소화하는 부분집합을 선별하는 실험을 통해, FVD 메트릭이 시간적 품질 향상 없이도 점수를 크게 낮출 수 있음을 보였다.
이러한 편향성은 FVD 메트릭에서 사용하는 I3D 특징 추출기의 한계에서 기인한다. I3D 모델은 동작 인식 데이터셋에 편향되어 있어 시간적 정보를 충분히 반영하지 못한다. 반면 자기 지도 학습 모델인 VideoMAE를 사용하면 시간적 품질에 더 민감한 FVD 점수를 얻을 수 있다.
실제 사례 연구를 통해 FVD 메트릭이 시간적 품질 저하를 감지하지 못하는 문제를 확인하였다. VideoMAE 기반 FVD 점수는 이러한 문제를 해결할 수 있다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Songwei Ge,A... às arxiv.org 04-19-2024
https://arxiv.org/pdf/2404.12391.pdfPerguntas Mais Profundas