本研究では、CLIP ベースのモデルに存在する単一タグバイアスを特定した。このバイアスは、CLIPのテキストエンコーダーが特定のタグ(単語)に過度に集中し、他の関連するタグを無視する傾向があることに起因する。
提案手法は2段階のファインチューニングアプローチを採用する。
この手法により、追加のデータやアノテーションを必要とせずに、マルチタグ分類やセグメンテーションタスクの性能を大幅に向上させることができた。また、テキストに関連するタグとそのマスクのアノテーションも提供する。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Sanghyun Jo,... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00384.pdfสอบถามเพิ่มเติม