이 논문은 Masked AutoDecoder(MAD)라는 새로운 다중 작업 비전 일반화 모델을 제안한다. MAD는 다음과 같은 핵심 특징을 가지고 있다:
병렬 디코딩 프레임워크: MAD는 양방향 주의 메커니즘을 사용하여 비전 작업 시퀀스의 문맥적 의존성을 포괄적으로 캡처하고 병렬로 작업 시퀀스를 디코딩할 수 있다. 이를 통해 기존 자기회귀 모델에 비해 훨씬 더 효율적인 추론이 가능하다.
마스크된 자동 디코딩: MAD는 작업 시퀀스의 일부를 마스킹하고 재구성하는 방식으로 다양한 작업 문맥을 학습한다. 이를 통해 단일 네트워크 브랜치와 간단한 크로스 엔트로피 손실로 모든 작업을 처리할 수 있다.
실험 결과, MAD는 기존 작업 특화 모델과 비교해 경쟁력 있는 성능을 보이면서도 추론 속도가 크게 향상되었다. 또한 기존 일반화 모델인 Pix2SeqV2 대비 약 100배 빠른 추론 속도를 달성했다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Han Qiu,Jiax... lúc arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07692.pdfYêu cầu sâu hơn