Core Concepts
QUILT-1Mデータセットには様々な画像の不純物が含まれており、これらを自動的に検出・除去することで、テキスト条件付き画像合成の性能を大幅に向上させることができる。
Abstract
本研究では、QUILT-1Mデータセットに含まれる画像の不純物を自動的に検出・除去するパイプラインを提案している。
まず、QUILT-1Mデータセットの1%にあたる6,532枚の画像を手動で評価し、画像に含まれる一般的な不純物(ナレーター、デスクトップ環境、テキスト/ロゴ、矢印/注釈、低画質、スライドビューアの要素など)を特定した。
次に、ResNet50-Dベースの多ラベル分類器を用いて、これらの不純物を自動検出するモデルを構築した。このモデルの精度は92.71%に達し、大規模なデータセットのクリーニングに有効であることが示された。
さらに、CLIP scoreを用いてテキストと画像の意味的な整合性が高い画像ペアを選別することで、データの質的な向上を図った。
最後に、クリーニングされたデータセットを用いてテキスト条件付き画像合成モデルを学習したところ、従来のモデルと比べて生成画像の品質が大幅に向上した。これは、FIDスコアの改善からも確認できる。
本研究の成果は、大規模な医療画像データセットを高品質な画像合成に活用する上で重要な知見を提供している。
Stats
QUILT-1Mデータセットの1%にあたる6,532枚の画像を手動で評価した結果、78.26%の画像に何らかの不純物が含まれていることが明らかになった。