Core Concepts
提案されたDecisionNCEフレームワークは、意思決定タスク向けの統一されたマルチモーダル表現学習フレームワークを提供し、トラジェクトリーレベルの言語接地と時間的一貫性を効果的に統合します。
Abstract
この論文では、Bradley-Terryモデルを適切に拡張してビジョン-言語表現学習に適用し、意思決定に特化したInfoNCEスタイルの最適化目標を自然に導き出します。DecisionNCEフレームワークは、トラジェクトリーレベルの接地問題で中心的な課題を効果的に解決し、意思決定向けの普遍的な表現と報酬学習手法を提供します。
Stats
ビジョン-言語エンコーダー:CLIP(Radford et al., 2021a)
データセット:EPIC-KITCHEN-100(Damen et al., 2018)
ロボット実験:FrankaKitchen(Gupta et al., 2019)
Quotes
"Despite the absence of explicit preference labels in existing datasets, it’s crucial to recognize that language instructions naturally communicate human intentions to agents."
"We propose a universal unified objective that can simultaneously extract meaningful task progression information from image sequences and seamlessly align them with language instructions."
"DecisionNCE excels in capturing temporally consistent task progression and comprehensively aligning with instructions."