Centrala begrepp
멀티모달 대형 언어 모델은 AI 생성 이미지를 탐지할 수 있는 능력을 보유하고 있으며, 이는 기존의 프로그래밍 기반 기계 학습 알고리즘과 비교하여 사용자에게 더 직관적이고 이해하기 쉬운 방식으로 제공될 수 있다.
Sammanfattning
이 연구는 멀티모달 대형 언어 모델(LLM)의 AI 생성 이미지 탐지 능력을 평가하였다. 실험 결과, 멀티모달 LLM은 AI 생성 이미지를 구분할 수 있는 일정 수준의 능력을 보였다. 이는 LLM이 이미지의 의미론적 비일관성을 감지할 수 있기 때문이다. 그러나 LLM의 성능은 신호 수준의 특징을 활용하는 기존 딥러닝 기반 탐지 방법에 비해 아직 낮은 편이다. 이는 LLM이 이미지 포렌식 작업을 위해 특화되지 않았기 때문이다. 연구진은 프롬프트 설계 기법 등을 통해 LLM의 성능을 향상시킬 수 있는 방안을 제안하였다.
Statistik
AI 생성 이미지 탐지 시 GPT4V 모델의 AUC 점수는 StyleGAN2의 경우 77.2%, Latent Diffusion의 경우 79.5%였다.
기존 딥러닝 기반 탐지 방법들의 AUC 점수는 StyleGAN2의 경우 96.5~99.6%, Latent Diffusion의 경우 58.6~97.1%였다.
실제 이미지에 대한 GPT4V 모델의 분류 정확도는 약 50%로 낮은 편이었다.
Citat
"멀티모달 LLM은 AI 생성 이미지를 구분할 수 있는 일정 수준의 능력을 보였다. 이는 LLM이 이미지의 의미론적 비일관성을 감지할 수 있기 때문이다."
"LLM의 성능은 신호 수준의 특징을 활용하는 기존 딥러닝 기반 탐지 방법에 비해 아직 낮은 편이다. 이는 LLM이 이미지 포렌식 작업을 위해 특화되지 않았기 때문이다."