本研究では、拡散モデルに基づく新しいフレームワーク「Diffusion in Ultra-Range (DUR)」を提案している。DURは、カメラから遠距離にある物体を含む合成画像を生成することができる。特に、ユーザーが4~25メートルの距離で行うジェスチャーの認識を目的としている。
DURは以下のように動作する:
実験の結果、DURで生成した合成画像を使ってGViTを訓練すると、実画像のみを使った場合よりも高い認識精度が得られることが示された。また、DURは他の生成モデルと比べても優れた性能を示した。さらに、DURで生成した合成画像を使ってGViTを訓練し、実際のロボットの制御に適用できることも確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Eran Bamani,... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09846.pdfDeeper Inquiries