マンバ・ツイスターを統合したReMamberは、視覚-言語相互作用を効果的にモデル化し、マルチモーダル情報の融合を強化することで、参照画像セグメンテーションの精度を大幅に向上させる。
CLIP の画像-テキスト整列を活用し、単一モーダルバックボーンの限界を克服し、参照画像セグメンテーションの精度を大幅に向上させる。
提案手法CRFormerは、言語情報の歪みを防ぐために、言語クエリの生成と言語の再構築を行うことで、言語特徴と視覚特徴の効果的な統合を実現する。
参照画像セグメンテーションタスクのための効率的な学習後量子化手法PTQ4RISを提案する。視覚エンコーダと言語エンコーダの特有の活性化分布に対処するための手法を開発し、高精度な量子化モデルを実現する。