Core Concepts
言語を情報源としたランダム化を活用することで、セグメンテーションネットワークの一般化性能を大幅に向上させることができる。
Abstract
本論文では、言語を情報源としたランダム化を活用することで、セグメンテーションネットワークの一般化性能を大幅に向上させる手法を提案している。
具体的には以下の3つの主要な要素から成る:
CLIP事前学習の堅牢性を最小限の微調整で維持すること
言語駆動のローカルスタイル拡張
ソースとオーグメンテーションされたスタイルをパッチごとにランダムに混合すること
まず、CLIP事前学習モデルの特徴表現を最小限の微調整で維持することで、元の堅牢性を保持する。次に、言語プロンプトを使ってクラス固有のローカルスタイルを抽出し、スタイルバンクを構築する。訓練時には、各パッチのスタイルをソースとオーグメンテーションされたスタイルの線形混合で置き換えることで、ソース分布を超えた中間的なドメインを探索する。
提案手法は、様々なドメイン一般化ベンチマークにおいて、最先端の手法を大幅に上回る性能を示している。
Stats
提案手法は、ImageNetで事前学習したモデルと比べて、様々なドメインでの平均mIoUが約13ポイント向上した。
提案手法は、Cityscapes、BDD-100K、Mapillaryの3つのデータセットで平均mIoUが約48%を達成した。
Quotes
"言語を情報源としたランダム化を活用することで、セグメンテーションネットワークの一般化性能を大幅に向上させることができる。"
"提案手法は、様々なドメイン一般化ベンチマークにおいて、最先端の手法を大幅に上回る性能を示している。"