核心概念
拡散モデルを使用して、超長距離の物体を含む合成画像を生成し、超長距離ジェスチャー認識モデルの訓練に活用する。
摘要
本研究では、拡散モデルに基づく新しいフレームワーク「Diffusion in Ultra-Range (DUR)」を提案している。DURは、カメラから遠距離にある物体を含む合成画像を生成することができる。特に、ユーザーが4~25メートルの距離で行うジェスチャーの認識を目的としている。
DURは以下のように動作する:
- 実際に収集したジェスチャー画像データセットを用いて、DURの拡散モデルを訓練する。
- 拡散モデルに、認識したいジェスチャーのクラスと距離の条件を与えることで、対応する合成画像を生成する。
- 生成された合成画像を用いて、ジェスチャー認識モデルGViTを訓練する。
実験の結果、DURで生成した合成画像を使ってGViTを訓練すると、実画像のみを使った場合よりも高い認識精度が得られることが示された。また、DURは他の生成モデルと比べても優れた性能を示した。さらに、DURで生成した合成画像を使ってGViTを訓練し、実際のロボットの制御に適用できることも確認された。
統計資料
4~25メートルの距離で撮影された175,000枚の実際のジェスチャー画像データセットを収集した。
合成画像生成時に、ジェスチャーの種類と距離の条件を指定できる。
引述
"拡散モデルは、GAN等の他の生成モデルと比べて、より高品質で多様な画像を生成できる。"
"DURで生成した合成画像を使ってGViTを訓練すると、実画像のみを使った場合よりも高い認識精度が得られる。"
"DURで生成した合成画像を使ってトレーニングしたGViTモデルは、実際のロボット制御に適用できることが示された。"