本研究は、ポリープの高いカムフラージュと冗長な時間的手がかりに取り組むために、拡散モデルベースのネットワークDiff-VPSを提案する。
主な特徴は以下の通り:
多タスク監督を拡散モデルに組み込むことで、分割タスクの識別能力と汎化性を向上させる。分類とオブジェクト検出のタスクを同時に行うことで、高レベルのセマンティック情報を活用する。
時間的依存性を捉えるために、前フレームから目標フレームを再構築する時間推論モジュールを開発する。さらに、敵対的自己教師学習戦略を採用して、より現実的なフレームを生成し、動的な手がかりをより良く捉えることができる。
大規模なSUN-SEG動画ポリープデータセットで実験を行い、提案手法がState-of-the-Artの性能を達成することを示す。特に、見慣れた場面と見慣れない場面の両方で優れた結果を得ている。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yingling Lu,... um arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07238.pdfTiefere Fragen