核心概念
ランタイムの観察介入により、任意の視覚-言語-行動モデルの視覚的ロバスト性を向上させることができる。
摘要
本研究では、Bring Your Own VLA (BYOVLA)と呼ばれる、ランタイムの介入スキームを提案している。BYOVLAは以下の2つのステップから成る:
- 視覚-言語モデル(VLM)を使って、入力画像の中で課題に関係のない領域を特定する。
- 視覚-言語-行動(VLA)モデルが感度の高い領域を最小限に変更することで、視覚的な妨害要因に対するロバスト性を高める。
この手法は、VLAモデルの重みにアクセスしたり、モデルを微調整する必要がないため、任意のオフザシェルフVLAに適用できる。
実験では、Octo-BaseとOpenVLAの2つの最先端のオープンソースVLAモデルを使用し、物体や背景の妨害要因が存在する環境でタスクを実行した。BYOVLAを適用することで、妨害要因がない場合の成功率と比べて20-40%の改善が見られた。一方、感度を考慮せずに全ての妨害領域を変更する手法や、GradCAMを使った感度推定では、元のVLAの性能を維持できなかった。
統計資料
物体妨害がある場合、Octo-Baseの成功率が67%から40%に低下した。
背景妨害がある場合、OpenVLAの成功率が100%から60%に低下した。
BYOVLAを適用することで、Octo-Baseの成功率を67%まで回復させた。
BYOVLAを適用することで、OpenVLAの成功率を80%まで回復させた。
引述
"Vision-language-action (VLA) models trained on large-scale internet data and robot demonstrations have the potential to serve as generalist robot policies."
"Due to the complexity of real-world scenarios and the lack of robotic data at scale, state-of-the-art VLAs are brittle against marginal variations in the environments they were trained on."
"BYOVLA can be applied to any VLA model without fine-tuning or access to the model's weights."