本稿では、説明可能なオープンワールド顔偽造分析のための新しい視覚質問応答(VQA)タスクとベンチマーク、そして、マルチモーダル大規模言語モデル(MLLM)と複数回答知的決定システム(MIDS)で構成される顔偽造分析アシスタントFFAAを紹介する。
顔偽造検出(FFD)モデルの一般化性能を向上させるには、基盤ネットワークの事前学習と微調整、そして推論段階の最適化が重要である。
本研究は、パラメータ効率的な方法でグローバルな特徴とローカルな特徴を同時に抽出することで、顔偽造検出の一般化性と頑健性を向上させる。