核心概念
CLIP-RT 透過自然語言監督和隨機軌跡多樣化技術,讓非專業人士也能夠教導機器人學習新的操作技能。
Kang, G.-C., Kim, J., Shim, K., Lee, J. K., & Zhang, B.-T. (2024). CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision. arXiv preprint arXiv:2411.00508.
本研究旨在開發一種讓非專業人士也能輕鬆教導機器人新技能的方法。為此,研究團隊提出了一種名為 CLIP-RT 的新型視覺語言動作 (VLA) 模型,該模型可以從自然語言監督中學習以語言為條件的機器人策略。