核心概念
Spiderは、8つの異なるコンテキスト依存セグメンテーションタスクを単一のパラメータセットで統一的に処理できる汎用モデルである。グループプロンプトを活用したコンセプトフィルタにより、様々なドメインの強いコンテキスト依存概念を正確に捉えることができる。
摘要
本論文は、コンテキスト依存概念理解のための統一フレームワーク「Spider」を提案している。従来のコンテキスト依存セグメンテーションタスクは個別に進化してきたため、ドメイン間の一般化が限定的で、技術革新も重複していた。
Spiderは、セグメンテーションストリームとコンセプトプロンプトストリームから構成される。コンセプトプロンプトストリームは、画像グループとマスクグループから生成されたコンセプトフィルタを用いて、セグメンテーションストリームの出力を動的に変換する。これにより、単一のパラメータセットで8つの異なるコンテキスト依存セグメンテーションタスクを統一的に処理できる。
また、「Balance FP - Unify BP」という訓練戦略を採用し、各タスクの性能をバランス良く最適化している。さらに、パラメータの1%未満の微調整で新しいタスクを学習でき、既存タスクの性能も5%以内の劣化に抑えられるなど、優れた継続学習能力を示している。
実験の結果、Spiderは8つのコンテキスト依存セグメンテーションタスクにおいて、専門モデルや既存の統一モデルを大きく上回る性能を達成している。また、同一画像内の複数のコンテキスト依存概念を同時に理解できる能力も示されている。
統計資料
自然物体検出タスクでは、Salient Object Detection (SOD)のFωβ が0.8821、Camouflaged Object Detection (COD)のFωβ が0.7893を達成した。
医療画像セグメンテーションタスクでは、Colon Polyp Segmentation (CPS)のmDiceが0.8243、COVID-19 Lung Infection (CLI)のmDiceが0.6956を達成した。
Shadow Detection (SD)のBERは0.0396、Transparent Object Segmentation (TOS)のBERは0.0636を達成した。
引述
"Spider can wander to any target of interest."
"Spider shows obvious advantages in continuous learning."
"As the scale and diversity of training data increase, it shows the potential in unseen tasks."