이 보고서는 2024 NICE: 제로샷 이미지 캡셔닝 평가를 위한 새로운 프론티어 챌린지에 대한 솔루션을 소개한다. NICE 2023 데이터셋과 달리, 이번 챌린지에는 인간이 작성한 새로운 주석이 포함되어 있어 캡션 스타일과 내용에 상당한 차이가 있다. 따라서 우리는 검색 증강 및 캡션 등급 부여 방법을 통해 이미지 캡션을 효과적으로 향상시켰다.
데이터 수준에서는 이미지 캡션 모델이 생성한 고품질 캡션을 학습 데이터로 활용하여 텍스트 스타일의 격차를 해결했다. 모델 수준에서는 OFA(수작업 템플릿 기반의 대규모 비주얼-언어 사전 학습 모델)를 이미지 캡셔닝 작업에 활용했다. 이후 이미지 캡션 모델이 생성한 고품질 캡션 데이터에 대한 캡션 수준 전략을 제안하고, 검색 증강 전략과 통합하여 검색 증강 프롬프트를 기반으로 모델이 더 높은 품질, 더 잘 맞는, 의미적으로 풍부한 캡션을 생성하도록 유도했다.
우리의 접근 방식은 리더보드에서 1위를 차지했으며, CIDEr 점수 234.11점과 다른 모든 지표에서도 1위를 기록했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Longfei Huan... lúc arxiv.org 04-22-2024
https://arxiv.org/pdf/2404.12739.pdfYêu cầu sâu hơn