Core Concepts
이미지 캡션 및 물체 감지를 위한 Transformer 기반 다중 작업 학습의 효과적인 활용
Abstract
실제 시나리오에서 이미지 캡션 및 물체 감지의 중요성
Transformer 기반 TICOD 모델 소개
Swin Transformer 백본 네트워크 활용
학습 및 평가를 통한 모델 성능 향상 증명
다중 작업 학습의 장점과 성능 평가 결과
실험 결과 및 성능 비교
하이퍼파라미터 조정 및 모델 성능 평가
결론 및 미래 전망
Stats
우리의 모델은 BERTScore에서 3.65%의 성능 향상을 달성했습니다.
Swin Transformer은 이미지 특징 추출을 위해 사용되었습니다.
MS-COCO 데이터셋을 사용하여 실험을 수행했습니다.
Quotes
"우리의 모델은 이미지 캡션에서 BERTScore에서 우수한 성능을 보여주며 물체 감지에서도 비교 가능한 성능을 유지합니다."
"다중 작업 학습을 통해 이미지 캡션의 성능을 향상시키는 것을 증명했습니다."