Centrala begrepp
이 연구는 이미지 캡션 모델을 위한 폴로스라는 감독 자동 평가 메트릭을 제안합니다. 이를 통해 다중 입력에서 평가 점수를 계산하고 효과적으로 사람의 판단과 일치시킵니다.
Sammanfattning
이미지 캡션 모델의 자동 평가 메트릭인 폴로스를 제안하고, 이를 위해 인간 피드백을 기반으로 한 메트릭 개발 프레임워크인 M2LHF를 소개합니다.
폴로스는 CLIP와 RoBERTa를 사용한 병렬 특징 추출 메커니즘을 통해 효과적인 특징을 추출하며, 131,020개의 인간 판단을 포함한 Polaris 데이터셋을 구축했습니다.
Composite, Flickr8K-Expert, Flickr8K-CF, PASCAL-50S, FOIL 및 Polaris 데이터셋에서 최신 성능을 달성하여 효과성과 견고성을 입증했습니다.
Statistik
최신 성능을 달성한 메트릭: 57.6, 56.4, 57.8 (Composite, Flickr8K-Expert, Polaris)
Polaris 데이터셋: 131,020개의 인간 판단
Citat
"폴로스는 병렬 특징 추출 메커니즘을 통해 다중 입력에서 평가 점수를 계산합니다."
"Polos는 CLIP와 RoBERTa를 사용한 효과적인 특징 추출을 통해 SOTA 성능을 달성했습니다."