本研究では、自己教師あり学習特徴の活用により、CLIP特徴を効率的に改善し、オープンボキャブラリーセマンティックセグメンテーションの精度を大幅に向上させる手法を提案する。
拡散モデルを用いて生成された文脈に依存したテキスト-視覚リファレンスを活用し、局所的および全体的な類似性を組み合わせることで、訓練を必要とせずに開放語彙セマンティックセグメンテーションを実現する。