Główne pojęcia
이미지 캡션 및 물체 감지를 위한 Transformer 기반 다중 작업 학습의 효과적인 활용
Statystyki
우리의 모델은 BERTScore에서 3.65%의 성능 향상을 달성했습니다.
Swin Transformer은 이미지 특징 추출을 위해 사용되었습니다.
MS-COCO 데이터셋을 사용하여 실험을 수행했습니다.
Cytaty
"우리의 모델은 이미지 캡션에서 BERTScore에서 우수한 성능을 보여주며 물체 감지에서도 비교 가능한 성능을 유지합니다."
"다중 작업 학습을 통해 이미지 캡션의 성능을 향상시키는 것을 증명했습니다."