本論文は、コンテキスト依存概念理解のための統一フレームワーク「Spider」を提案している。従来のコンテキスト依存セグメンテーションタスクは個別に進化してきたため、ドメイン間の一般化が限定的で、技術革新も重複していた。
Spiderは、セグメンテーションストリームとコンセプトプロンプトストリームから構成される。コンセプトプロンプトストリームは、画像グループとマスクグループから生成されたコンセプトフィルタを用いて、セグメンテーションストリームの出力を動的に変換する。これにより、単一のパラメータセットで8つの異なるコンテキスト依存セグメンテーションタスクを統一的に処理できる。
また、「Balance FP - Unify BP」という訓練戦略を採用し、各タスクの性能をバランス良く最適化している。さらに、パラメータの1%未満の微調整で新しいタスクを学習でき、既存タスクの性能も5%以内の劣化に抑えられるなど、優れた継続学習能力を示している。
実験の結果、Spiderは8つのコンテキスト依存セグメンテーションタスクにおいて、専門モデルや既存の統一モデルを大きく上回る性能を達成している。また、同一画像内の複数のコンテキスト依存概念を同時に理解できる能力も示されている。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xiaoqi Zhao,... lúc arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01002.pdfYêu cầu sâu hơn