本研究では、従来のビジョン言語モデル(vLLM)ベースのセグメンテーションアシスタントが抱える2つの主な問題点を指摘している。
これらの問題は、トレーニングデータの複雑性が不足していることが主な原因であると分析している。
そこで本研究では、セマンティックセグメンテーションタスクを活用し、複数のターゲットや存在しないカテゴリを含む一般的なクエリ形式を提案している。さらに、この新しい入力フォーマットに対応するため、3つの革新的な学習手法を導入している:
これらの手法を組み合わせたモデル「LaSagnA」は、従来のvLLMベースのアシスタントと比較して、セマンティックセグメンテーション、リファリングセグメンテーション、推論セグメンテーションの各タスクで大幅な性能向上を達成している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Cong Wei,Hao... a las arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08506.pdfConsultas más profundas