이 연구는 멀티모달 대형 언어 모델(LLM)의 AI 생성 이미지 탐지 능력을 평가하였다. 실험 결과, 멀티모달 LLM은 AI 생성 이미지를 구분할 수 있는 일정 수준의 능력을 보였다. 이는 LLM이 이미지의 의미론적 비일관성을 감지할 수 있기 때문이다. 그러나 LLM의 성능은 신호 수준의 특징을 활용하는 기존 딥러닝 기반 탐지 방법에 비해 아직 낮은 편이다. 이는 LLM이 이미지 포렌식 작업을 위해 특화되지 않았기 때문이다. 연구진은 프롬프트 설계 기법 등을 통해 LLM의 성능을 향상시킬 수 있는 방안을 제안하였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shan Jia,Rei... a las arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14077.pdfConsultas más profundas