核心概念
テキストガイド型ディフュージョンモデルを使用したデータ拡張手法(D4)により、少数の注釈付きデータから、ターゲットドメインの高品質な合成画像を生成し、物体検出モデルの精度と汎化性能を向上させることができる。
要約
本研究では、ビニヤードの若枝(シュート)の検出タスクにおいて、テキストガイド型ディフュージョンモデルを用いた新しいデータ拡張手法(D4)を提案した。
D4は以下の特徴を持つ:
- 大量の元の画像と少数の注釈付きデータを使用して、テキストガイド型ディフュージョンモデルをプレトレーニングする。
- プレトレーニングした2段階のモデルを用いて、ターゲットドメインの注釈付き合成画像を生成する。
- 1段階目のプレトレーニングでは、広範な画像特徴を学習する。
- 2段階目のプレトレーニングでは、注釈情報を学習する。
- 生成された画像の品質をIQAメトリクスで評価し、高品質な画像のみを使用する。
実験の結果、D4を用いることで、BBox検出タスクでは最大28.65%、キーポイント検出タスクでは最大13.73%の精度向上が確認された。D4は、農業分野における訓練データ生成の課題を同時に解決し、物体検出モデルの汎化性能を向上させることが期待できる。
統計
注釈付き画像の数が少ないと、物体検出モデルの精度が低下する。
同じ作物でも、環境条件や生育ステージの違いにより外観が大きく変化するため、幅広いドメインをカバーする訓練データが必要である。
訓練データの不足と多様なドメインの問題を同時に解決することが重要である。
引用
"テキストガイド型ディフュージョンモデルを使用したデータ拡張手法(D4)により、少数の注釈付きデータから、ターゲットドメインの高品質な合成画像を生成し、物体検出モデルの精度と汎化性能を向上させることができる。"
"D4は、農業分野における訓練データ生成の課題を同時に解決し、物体検出モデルの汎化性能を向上させることが期待できる。"