แนวคิดหลัก
제로 샷 학습을 위해 시각-의미 관계와 의미-의미 관계를 효과적으로 모델링하는 이중 관계 마이닝 네트워크를 제안한다.
บทคัดย่อ
이 논문은 제로 샷 학습(ZSL)을 위한 새로운 접근법인 이중 관계 마이닝 네트워크(DRMN)를 제안한다. DRMN은 시각-의미 관계와 의미-의미 관계를 모두 고려하여 지식 전달을 향상시킨다.
구체적으로:
- 이중 주의 블록(DAB)은 다중 수준 특징 융합과 공간 및 채널 주의 메커니즘을 통해 시각-의미 관계를 모델링한다. 이를 통해 시각 특징을 풍부하게 하고 시각-의미 임베딩을 개선한다.
- 의미 상호작용 변환기(SIT)는 속성 표현의 일반화를 강화하여 속성 간 관계를 모델링한다. 이를 통해 더 효과적인 지식 전달이 가능하다.
- 전역 분류 브랜치를 도입하여 사람이 정의한 속성을 보완하고, 결과를 결합하여 성능을 향상시킨다.
실험 결과, DRMN은 CUB, SUN, AwA2 벤치마크에서 새로운 최첨단 성능을 달성했다. 이는 제안된 이중 관계 마이닝 접근법이 제로 샷 학습에 매우 효과적임을 보여준다.
สถิติ
제로 샷 학습에서 DRMN은 CUB 데이터셋에서 82.5%의 최고 정확도를 달성했다.
DRMN은 SUN 데이터셋에서 66.9%의 최고 정확도를 달성했다.
DRMN은 AwA2 데이터셋에서 74.6%의 최고 정확도를 달성했다.
คำพูด
"제로 샷 학습(ZSL)은 공유된 의미 설명(예: 속성)을 통해 새로운 클래스를 인식하는 것을 목표로 한다."
"주의 기반 방법은 공간 주의 메커니즘을 통해 시각 특징과 속성을 정렬하여 큰 진전을 보였다."
"그러나 이러한 방법은 공간 차원에서만 시각-의미 관계를 탐색하며, 서로 다른 속성이 유사한 주의 영역을 공유할 때 분류 모호성이 발생할 수 있고, 속성 간 의미 관계는 거의 논의되지 않는다."