本研究では、従来のビジョン言語モデル(vLLM)ベースのセグメンテーションアシスタントが抱える2つの主な問題点を指摘している。
これらの問題は、トレーニングデータの複雑性が不足していることが主な原因であると分析している。
そこで本研究では、セマンティックセグメンテーションタスクを活用し、複数のターゲットや存在しないカテゴリを含む一般的なクエリ形式を提案している。さらに、この新しい入力フォーマットに対応するため、3つの革新的な学習手法を導入している:
これらの手法を組み合わせたモデル「LaSagnA」は、従来のvLLMベースのアシスタントと比較して、セマンティックセグメンテーション、リファリングセグメンテーション、推論セグメンテーションの各タスクで大幅な性能向上を達成している。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Cong Wei,Hao... alle arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08506.pdfDomande più approfondite