In dieser Studie wird eine Methode zur kontinuierlichen Erkennung von Zustandsänderungen von Lebensmitteln beim Kochen für Kochroboter vorgeschlagen. Die Methode verwendet vortrainierte große Vision-Sprache-Modelle (VLMs), um die Ähnlichkeit zwischen Bildern und Texten, die den Zustand beschreiben, kontinuierlich zu berechnen. Um eine genauere und robustere kontinuierliche Zustandserkennung zu erreichen, wird die Gewichtung der einzelnen Textaufforderungen durch Black-Box-Optimierung angepasst.
Die Experimente umfassen die Erkennung des Kochens von Wasser, Schmelzen von Butter, Kochen von Eiern und Anbraten von Zwiebeln. Die Ergebnisse zeigen, dass die vorgeschlagene Methode mit Black-Box-Optimierung (OPT) im Vergleich zu Ansätzen ohne Optimierung (ALL, ONE) eine höhere Erkennungsleistung erzielt. Außerdem zeigt sich, dass das ImageBind-Modell stabilere Ergebnisse liefert als CLIP. Die Leistung hängt von den spezifischen Eigenschaften der Zustandsänderungen ab, wobei einfachere Änderungen wie Wasserkochen oder Buttererschmelzen besser erkannt werden als komplexere Änderungen wie das Eikochen.
Zukünftige Forschungsrichtungen umfassen die Integration zusätzlicher Modalitäten wie Video, Audio und Wärmekarten, die automatische Generierung des Textsets sowie die Untersuchung leistungsfähigerer Vision-Sprache-Modelle, um auch komplexere Zustandsänderungen besser zu erfassen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Kento Kawaha... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08239.pdfConsultas más profundas