本研究では、一般目的のビジョン言語モデル GPT-4V と言語モデル GPT-4 を組み合わせた、ヒトの実演ビデオからロボットのタスクを計画するパイプラインを提案している。
まず、GPT-4V がビデオ内のヒトの行動を分析し、テキストの指示に変換する。次に、GPT-4 がこの指示とシーンの情報からシンボリックなタスクプランを生成する。その後、ビデオ内の手とオブジェクトの相互作用を分析し、把持や離手の時間と位置を特定する。これにより、ロボットの効率的な実行に必要な把持タイプ、経路、姿勢などの情報を抽出できる。
定性的な実験では、様々なシナリオでこのパイプラインの有効性を確認した。一方、定量的な評価では、GPT-4V の認識精度に限界があることが明らかになり、ヒトによる監視と修正の重要性が示された。
今後の課題としては、長期のタスクステップの抽出、複雑な前提条件の考慮、プロンプトの最適化などが挙げられる。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Naoki Wake,A... um arxiv.org 05-07-2024
https://arxiv.org/pdf/2311.12015.pdfTiefere Fragen