本論文は、学習型画像圧縮(LIC)と対照言語-画像事前学習(CLIP)の機能を統合することで、大規模マルチモーダルデータの効率的な保存と検索を実現する新しいフレームワークを提案している。
まず、圧縮性と検索性の複雑な関係を分析し、それぞれの最適化戦略の違いを明らかにした。圧縮では文脈モデリングと主観的/客観的画質の向上に焦点を当てるのに対し、検索では人間の自然言語理解に基づいた多注意メカニズムを重視する。
次に、LICのエンコーダ特徴とCLIPの画像エンコーダ特徴を統合するためのアダプタを導入した。これにより、LICの圧縮効率と検索精度を両立させることができる。
実験評価では、Kodakデータセットを用いて提案手法の有効性を示した。従来手法と比較して、圧縮効率と検索精度が大幅に向上していることを確認した。
本研究は、大規模マルチモーダルデータの効率的な保存と検索に向けた重要な一歩を示している。LICとCLIPの機能を統合することで、スケーラブルで効率的なマルチモーダル検索システムの実現が期待できる。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות