核心概念
本文展示了注意力機制為基礎的端到端方法在高速基於視覺的四旋翼無人機障礙物迴避任務中的能力,並與各種最新的學習架構進行比較。
要約
本文提出了使用視覺轉換器(ViT)模型進行端到端的基於深度圖像的四旋翼無人機控制。與卷積網絡、U-Net和循環神經網絡等基線模型相比,ViT模型在高速飛行和在未知環境中的泛化能力方面表現更出色。
具體來說:
- 在模擬的"球體"環境中,隨著飛行速度的增加,ViT+LSTM模型的碰撞率明顯低於其他模型和專家策略。
- 在之前未見的"樹林"環境中,ViT系列模型的泛化能力大大優於其他模型。
- ViT+LSTM模型不僅在碰撞率方面表現出色,而且在能量消耗方面也優於單獨使用ViT或LSTM的模型。
- 在現實世界的實驗中,ViT+LSTM模型能夠在沒有任何額外調整的情況下,在單一和多障礙物配置中進行高速(最高7米/秒)的碰撞迴避。
- 通過可視化分析,ViT模型能夠捕捉到障礙物的邊緣和周圍的上下文信息,這可能是其在高速障礙物迴避任務中表現優異的原因。
總的來說,本文展示了視覺轉換器在端到端四旋翼無人機控制中的潛力,並為進一步探索注意力機制在機器人控制中的應用提供了啟發。
統計
在7米/秒的速度下,ViT+LSTM模型的碰撞率為9%,而其他模型和專家策略的碰撞率均超過18%。
在7米/秒的速度下,ViT+LSTM模型的平均每次碰撞時間為0.16秒,而專家策略為0.45秒。
在"樹林"環境中,ViT和ViT+LSTM模型在7米/秒的速度下的成功率分別為80%和70%,而其他模型的成功率均低於60%。
引用
"本文展示了注意力機制為基礎的端到端方法在高速基於視覺的四旋翼無人機障礙物迴避任務中的能力。"
"ViT+LSTM模型不僅在碰撞率方面表現出色,而且在能量消耗方面也優於單獨使用ViT或LSTM的模型。"
"通過可視化分析,ViT模型能夠捕捉到障礙物的邊緣和周圍的上下文信息,這可能是其在高速障礙物迴避任務中表現優異的原因。"