核心概念
生成モデルを活用し、実サンプルと生成サンプルの関係性を学習することで、より効果的なクラスタリングを実現する。
要約
本論文は、生成モデルを活用したクラスタリング手法「Generative Calibration Clustering (GCC)」を提案している。
まず、事前学習段階では、教師なし表現学習手法であるContrastive Learningを用いて特徴抽出器を学習し、クラスタリングヘッドを初期化する。次に、条件付き拡散モデルを用いて、擬似ラベル付きの生成サンプルを作成する。
その後の微調整段階では、以下の3つの損失関数を用いて、実サンプルと生成サンプルの関係性を学習する:
- 実サンプルと生成サンプルの特徴分布の整合性を高める損失
- 生成サンプルの特徴表現の弁別性を高める損失
- 生成サンプルの疑似ラベルを活用した自己教師あり学習の損失
これらの損失関数を組み合わせることで、より効果的なクラスタリングが可能となる。
提案手法は、Cifar-10、Cifar-100、STL-10の各データセットにおいて、従来手法を大きく上回る性能を示している。特に、クラスの不均衡が大きい場合でも頑健な性能を発揮することが確認された。
統計
生成サンプルの特徴とクラスタ中心との距離を最小化することで、実サンプルの特徴表現を改善できる。
生成サンプルの特徴表現の弁別性を高めることで、クラスタリング性能の向上につながる。
生成サンプルの疑似ラベルを活用した自己教師あり学習により、より信頼性の高いクラスタリングが可能となる。
引用
生成モデルを活用することで、教師情報のない状況でも効果的なクラスタリングが可能となる。
実サンプルと生成サンプルの関係性を適切に学習することが、提案手法の鍵となる。