Khái niệm cốt lõi
CounterCurate enhances visio-linguistic reasoning by addressing physically grounded reasoning and leveraging text and image generation models for semantic counterfactual fine-tuning.
Thống kê
私たちのアプローチは、Flickr30k-PositionsベンチマークでCLIPに33%、LLaVAに37%という大幅な性能向上を示しています。
私たちの方法は、SugarCrepeなどのベンチマークでCLIPとLLaVAをファインチューニングすることで、明らかなパフォーマンス向上を実証しています。
Trích dẫn
"Our approach shows significant improvements such as 33% for CLIP and 37% for LLaVA on our Flickr30k-Positions benchmark."
"Our method empirically demonstrates a significant performance boost by fine-tuning CLIP and LLaVA using our data generation pipeline on benchmarks such as SugarCrepe."