Основні поняття
본 논문에서는 다중 모달 대형 언어 모델(MLLM) 기반의 설명 가능한 오픈 월드 얼굴 위조 분석 시스템인 FFAA를 제안하여 기존 얼굴 위조 분석 기술의 한계점을 극복하고, 사용자 친화적이고 설명 가능한 분석 결과를 제공하여 모델의 신뢰성을 높이고 실제 환경에서의 활용 가능성을 제시합니다.
Анотація
FFAA: 다중 모달 대형 언어 모델 기반 설명 가능한 오픈 월드 얼굴 위조 분석 보조 시스템
본 논문에서는 딥페이크 기술의 발전으로 인해 심각해지는 얼굴 위조 문제에 대응하기 위해 다중 모달 대형 언어 모델(MLLM) 기반의 설명 가능한 오픈 월드 얼굴 위조 분석 보조 시스템인 FFAA를 제안합니다. FFAA는 기존 얼굴 위조 분석 기술의 한계점으로 지적되었던 설명 가능성 부족, 새로운 위조 기술에 대한 대응력 부족, 다양한 환경 요인에 대한 취약성 등을 해결하고자 개발되었습니다.
1. OW-FFA-VQA 과제 및 OW-FFA-Bench 제안
본 논문에서는 기존 이진 분류 방식을 넘어, 주어진 얼굴 이미지에 대한 진위 여부 판단과 함께 그 근거를 제시하는 VQA 과제인 Open-World Face Forgery Analysis VQA (OW-FFA-VQA)를 새롭게 제안합니다. 또한, OW-FFA-VQA 과제 수행 능력을 평가하기 위한 벤치마크 데이터셋인 OW-FFA-Bench를 구축했습니다. OW-FFA-Bench는 7개의 공개 데이터셋에서 수집한 다양한 실제 및 위조 얼굴 이미지로 구성되어 있으며, 실제 환경에서의 모델 성능 평가를 가능하게 합니다.
2. FFA-VQA 데이터셋 구축
OW-FFA-VQA 과제를 해결하기 위해, 다양한 실제 및 위조 얼굴 이미지와 함께 이미지 설명, 위조 추론 과정, 분석 결과 등을 포함하는 설명 가능한 오픈 월드 얼굴 위조 분석 VQA 데이터셋인 FFA-VQA를 구축했습니다. FFA-VQA 데이터셋 구축에는 GPT4 기반의 데이터 생성 기술을 활용하여 수작업으로 인한 편향을 최소화하고 데이터셋의 규모와 품질을 향상시켰습니다.
3. FFAA 시스템 구축
FFAA는 크게 두 가지 모듈로 구성됩니다. 첫째, FFA-VQA 데이터셋을 기반으로 미세 조정된 MLLM은 주어진 얼굴 이미지에 대한 분석 결과를 생성합니다. 둘째, Multi-answer Intelligent Decision System (MIDS)는 MLLM이 생성한 다양한 가설 기반 답변 중 이미지의 진위 여부와 가장 일치하는 답변을 선택하여 모델의 강건성을 향상시킵니다.