本研究では、匂いの痕跡のみを頼りに目標物を見つける問題を扱っている。匂いは乱流によって断続的に検知されるため、空間情報がない状況でも目標物を見つけるのは難しい。
研究では、強化学習を用いて、匂いの痕跡の時間的特徴を利用したナビゲーション戦略を学習させた。具体的には、匂いの強さと間欠性の移動平均を特徴量として離散的な匂い状態を定義し、Q学習によりこれらの状態に応じた最適な行動を学習させた。
さらに、匂いが検知されない「空白状態」への対応策として、過去の経験に基づいて適応的に記憶時間を調整する手法を提案した。これにより、記憶時間を最適化せずとも、様々な環境に適応できることを示した。
最適な戦略は、匂いが検知された際は上流に進み、匂いが検知されない際は横方向に探索するというものであり、これは昆虫の行動と類似していることが分かった。
本研究は、匂いのみを頼りにナビゲーションを行う際の重要な特徴を明らかにしており、ロボットや生物の匂いナビゲーションの理解に貢献すると考えられる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究