Główne pojęcia
結合料理領域知識と時間的豊かさを捉える形式論理により、明確でロボット実行可能な計画を抽出する。
Streszczenie
料理レシピの翻訳は、豊かな言語的複雑さ、時間的に拡張された相互接続されたタスク、およびほぼ無限の可能なアクション空間が特徴である。本研究では、Linear Temporal Logic(LTL)を使用して料理レシピの時間的性質をモデル化することができるという洞察を活用し、Cook2LTLというシステムを提案している。このシステムは、インターネット上で見つかった任意の料理レシピから指示手順をLTL式のセットに変換し、高レベルの料理アクションをキッチン環境で実行可能なプリミティブアクションに基づいて地面付けし、ロボットが実行可能なプランに変換する。Cook2LTLは、実行時に問い合わせ可能なアクションライブラリーを動的に構築するキャッシングスキームを使用しており、AI2-THORでリアルなシミュレーション環境に具体化されており、様々な料理レシピでそのパフォーマンスを評価している。
Statystyki
Cook2LTLはLLM APIコール数(-51%)、遅延(-59%)、コスト(-42%)を削減します。
Recipe1M+データセットから一部のレシピに基づいてメソッドを構築しました。
Cook2LTLは50件のRecipe1M+レシピ全体で評価されました。
Cytaty
"Combining a source of cooking domain knowledge with a formalism that captures the temporal richness of cooking recipes could enable the extraction of unambiguous, robot-executable plans."
"Our main contribution is Cook2LTL, a system that receives a cooking recipe in natural language form, reduces high-level cooking actions to robot-executable primitive actions through the use of LLMs, and produces unambiguous task specifications written in the form of LTL formulae."
"We demonstrate that our system significantly decreases LLM API calls (−51%), latency (−59%), and cost (−42%) compared to a baseline that queries the LLM for every newly encountered action at runtime."