Concepts de base
시각-언어 사전 훈련에서 의미 강화된 크로스 모달 가림막 이미지 모델링의 중요성과 효과
Stats
VL-BEiT (Bao et al., 2022)는 가림막 이미지 모델링에 이산 가변 오토인코더(dVAE)를 사용하여 MIM의 감독을 제공합니다.
VLMAE (He et al., 2022b)와 M3AE (Geng et al., 2022)는 MIM의 복원 대상으로 가림막 영역의 원시 픽셀을 사용합니다.
Citations
"우리의 SemMIM 프레임워크는 시각-언어 의미 정렬을 촉진하는 데 효과적입니다."
"시각 패치 인코딩의 패턴 클러스터는 높은 수준의 의미적 패턴을 보여줍니다."