本研究では、CLIP ベースのモデルに存在する単一タグバイアスを特定した。このバイアスは、CLIPのテキストエンコーダーが特定のタグ(単語)に過度に集中し、他の関連するタグを無視する傾向があることに起因する。
提案手法は2段階のファインチューニングアプローチを採用する。
この手法により、追加のデータやアノテーションを必要とせずに、マルチタグ分類やセグメンテーションタスクの性能を大幅に向上させることができた。また、テキストに関連するタグとそのマスクのアノテーションも提供する。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Sanghyun Jo,... om arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00384.pdfDiepere vragen