Core Concepts
大規模言語モデル(LLM)を活用し、少量の教師データから高精度なセグメンテーションを実現する新しいアプローチを提案する。
Abstract
本論文は、大規模言語モデル(LLM)を活用した新しい少量サンプル物体セグメンテーションフレームワーク「LLaFS」を提案している。従来の少量サンプルセグメンテーション手法は、限られた教師データからのみ特徴を抽出するため、性能が十分ではなかった。
LLaFSでは以下の3つの主要な技術を導入することで、この問題を解決している:
-
入力命令の設計: LLMが画像処理タスクを理解し、多様な視覚情報を活用できるよう、セグメンテーションタスクの詳細な定義と、サポート画像の細かな属性情報を含む命令を設計した。
-
疑似サンプルを用いたカリキュラム事前学習: LLMの学習データが不足する問題に対し、疑似的なサポート-クエリ画像ペアを生成し、学習難易度を徐々に上げるカリキュラム学習を行うことで、LLMの性能を大幅に向上させた。
-
多様な視覚情報の統合: サポート画像の属性情報と、LLMの事前学習済み知識を組み合わせることで、限られた教師データの不足を補完し、高精度なセグメンテーションを実現した。
実験の結果、LLaFSは従来手法を大幅に上回る性能を示し、LLMを活用した新しい少量サンプルセグメンテーションの可能性を示した。
Stats
少量のサポート画像から高精度なセグメンテーションを実現できる
従来手法と比べ、PASCAL-5iデータセットで1ショットと5ショットの平均IoUがそれぞれ4.1%と3.8%向上
COCO-20iデータセットでも1ショットと5ショットの平均IoUがそれぞれ3.9%と4.0%向上
Quotes
"LLaFS directly employs LLMs to produce segmentation results. This makes LMs no longer work as only auxiliary tools, but fully unlock their complete potential in handling the complex computer vision tasks in an end-to-end manner."
"We find that integrating LLM to few-shot segmentation is non-trivial as we face three critical technical challenges: 1) How to enable the text-based LLM to comprehend and address an image processing task? 2) How to leverage both the visual information from support images and the text information from the LLM to guide the query segmentation? and 3) How to effectively train the model with only limited data?"