핵심 개념
Polos is a novel automatic evaluation metric for image captioning models that outperforms existing metrics by leveraging multimodal inputs and human feedback.
초록
この研究では、画像キャプションモデルのための新しい自動評価メトリックであるPolosが提案されました。Polosは、マルチモーダル入力と人間のフィードバックを活用して既存のメトリックを上回ります。Polosは、画像キャプションモデルに対する監督自動評価メトリックであり、M2LHFフレームワークを導入しました。この研究では、131,020件の人間判断からなるPolarisデータセットを構築し、Composite、Flickr8K-Expert、Flickr8K-CF、PASCAL-50S、FOILなどの画像キャプションベンチマークで最先端のパフォーマンスを達成しました。
통계
Polaris dataset contains 131,020 human judgments from 550 evaluators.
State-of-the-art performance achieved on Composite, Flickr8K-Expert, Flickr8K-CF, PASCAL-50S, FOIL benchmarks.
인용구
"Polos is capable of modeling intricate relationships within the vector space of text-image pairs as well as text-text pairs."
"Our proposed metric fuses both similarity-based and learning-based approaches."
"We achieved SOTA performance on image captioning benchmarks including Composite, Flickr8K-Expert, and Flickr8K-CF."