核心概念
計算リソースの限られた環境でも高性能なCLIPモデルのトレーニングと推論を可能にするための、モデル構造の簡素化、データ拡張、新しい損失関数などの技術が提案されている。
Liu, H. (2024). SIMPLIFYING CLIP: UNLEASHING THE POWER OF LARGE-SCALE MODELS ON CONSUMER-LEVEL COMPUTERS. arXiv preprint arXiv:2411.14789.
本研究は、従来大規模な計算リソースを必要としたCLIPモデルを、消費者レベルのコンピュータ(Nvidia RTX3090 GPU 1基、ストレージ容量1TB)でトレーニング・推論できるようにすることを目的とする。