CosmoCLIPは、大規模ビジョン言語モデル(VLM)であるCLIPを、最適化された天文画像データセットSpaceNetとBLIPによるキャプション生成を用いてファインチューニングすることで、天文画像のゼロショット分類と画像テキスト検索タスクにおいて優れた性能を実現する。