Alapfogalmak
本稿では、説明可能なオープンワールド顔偽造分析のための新しい視覚質問応答(VQA)タスクとベンチマーク、そして、マルチモーダル大規模言語モデル(MLLM)と複数回答知的決定システム(MIDS)で構成される顔偽造分析アシスタントFFAAを紹介する。
Kivonat
顔偽造分析のための新しいVQAタスクとアシスタントFFAA
Zhengchao Huang, Bin Xia, Zicheng Lin, Zhun Mou, Wenming Yang, and Jiaya Jia. FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant. arXiv preprint arXiv:2408.10072v2, 2024.
本研究は、深層学習技術を用いた顔偽造の脅威に対抗するため、説明可能なオープンワールド顔偽造分析のための新しい視覚質問応答(OW-FFA-VQA)タスクを提案し、対応するベンチマークと、このタスクに取り組むための新しいフレームワークFFAAを提案する。