Centrala begrepp
본 연구는 다중 스케일 정보와 전체 장면 특징을 활용하여 자연 이미지에서 인간의 시선 패턴을 정확하게 예측하는 새로운 인코더-디코더 모델을 제안한다.
Sammanfattning
본 연구는 시각적 주의력 예측을 위한 새로운 인코더-디코더 모델을 제안한다. 이 모델은 다음과 같은 특징을 가지고 있다:
- VGG16 아키텍처를 기반으로 하는 인코더 네트워크를 사용하여 다양한 공간 스케일의 시각 특징을 추출한다.
- 병렬 구조의 확장 합성곱 층(ASPP)을 통해 다중 스케일 정보를 캡처하고, 전체 장면 특징을 추가로 활용한다.
- 디코더 네트워크를 통해 원본 이미지 크기의 주의력 맵을 생성한다.
실험 결과, 제안된 모델은 MIT300 및 CAT2000 벤치마크에서 기존 최신 모델들과 비교하여 우수한 성능을 보였다. 또한 계산 효율성이 높아 제한된 컴퓨팅 자원을 가진 (가상) 로봇 시스템에 적용할 수 있다.
Statistik
제안된 모델은 MIT300 벤치마크에서 AUC-J, SIM, EMD, AUC-B, sAUC, CC, NSS, KLD 지표에서 경쟁력 있는 성능을 보였다.
CAT2000 벤치마크에서는 AUC-J, SIM, EMD, AUC-B, sAUC, CC, NSS, KLD 지표에서 최신 모델들을 능가하는 결과를 달성했다.
Citat
"제안된 인코더-디코더 모델은 다중 스케일 정보와 전체 장면 특징을 활용하여 자연 이미지에서 인간의 시선 패턴을 정확하게 예측할 수 있다."
"제안된 모델은 계산 효율성이 높아 제한된 컴퓨팅 자원을 가진 (가상) 로봇 시스템에 적용할 수 있다."