核心概念
LaSagnAは、複数のターゲットオブジェクトや存在しないカテゴリを含むクエリに対応可能なセグメンテーションモデルである。セマンティックセグメンテーションデータセットを活用し、効果的な学習手法を提案することで、従来のモデルを大幅に改善している。
要約
本研究では、従来のビジョン言語モデル(vLLM)ベースのセグメンテーションアシスタントが抱える2つの主な問題点を指摘している。
- 単一のターゲットしか扱えない
- 画像に存在しないカテゴリも予測してしまう
これらの問題は、トレーニングデータの複雑性が不足していることが主な原因であると分析している。
そこで本研究では、セマンティックセグメンテーションタスクを活用し、複数のターゲットや存在しないカテゴリを含む一般的なクエリ形式を提案している。さらに、この新しい入力フォーマットに対応するため、3つの革新的な学習手法を導入している:
- シーケンス拡張: 予測の欠落を改善するため、存在しないカテゴリも含めて出力する
- ランダムクラスリスト: 長い入力シーケンスを扱うため、クエリ中のカテゴリをランダムに選択する
- ターゲット順序の一致: クエリとの整合性を保つため、出力の順序をクエリと同じにする
これらの手法を組み合わせたモデル「LaSagnA」は、従来のvLLMベースのアシスタントと比較して、セマンティックセグメンテーション、リファリングセグメンテーション、推論セグメンテーションの各タスクで大幅な性能向上を達成している。
統計
画像中に存在するカテゴリはで、存在しないカテゴリはで表現される。
クエリ中のカテゴリ数は動的に変化し、ランダムに選択される。
引用
"LaSagnAは、複数のターゲットオブジェクトや存在しないカテゴリを含むクエリに対応可能なセグメンテーションモデルである。"
"セマンティックセグメンテーションデータセットを活用し、効果的な学習手法を提案することで、従来のモデルを大幅に改善している。"