核心概念
本論文旨在開發機器學習方法,使自主導航機器人的行為能夠與人類操作員或所有者的意圖和偏好保持一致。
要約
本論文提出了三個主要貢獻,以解決自主導航中的價值對齊問題:
-
視覺模仿學習用於機器人導航:
- 介紹了一種稱為VOILA的模仿學習算法,可以從人類演示中學習視覺導航策略,即使存在視角差異。
- VOILA能夠端到端地從原始傳感器觀測映射到低級動作命令,在模擬和實體機器人實驗中都表現良好。
-
偏好對齊的越野導航:
- 提出了STERLING,一種自監督的地形表示學習算法,可以從未受約束的機器人經驗中學習相關的地形表示。
- 提出了PATERN,一種能夠將操作員對視覺新地形的偏好外推的算法。
- 通過實體機器人實驗,證明了STERLING和PATERN能夠產生與操作員地形偏好一致的導航行為。
-
社交協調的機器人導航:
- 介紹了SCAND數據集,包含人類演示的社交協調導航行為。
- 提出了一種混合方法,結合古典導航算法和基於SCAND的行為克隆,實現了社交協調的機器人導航。
- 通過實體機器人實驗和人類評估研究,證明了所提方法的有效性。
總之,本論文為解決自主導航中的價值對齊問題提供了重要貢獻,使機器人的導航行為能夠更好地與人類的意圖和偏好保持一致。
統計
在AirSim模擬環境中,使用VOILA學習的策略與人類演示的軌跡的Hausdorff距離平均小於10.0,表明能夠成功模仿人類演示。
在多種戶外環境中,使用STERLING的機器人在5次試驗中全部成功完成任務,並且導航軌跡與操作員偏好一致。
在大規模戶外部署中,使用PATERN+的機器人僅需5分鐘的額外數據即可成功完成3英里的徒步路線,表現出良好的適應性。
在人類評估研究中,使用混合方法的機器人導航得到了較高的社交協調性評分。