Die Studie präsentiert einen neuartigen Ansatz zur Fusion von Informationen aus verschiedenen Modalitäten (Sprache und Gesten) unter Berücksichtigung des Kontexts, um die Absichten des Menschen für Manipulationsaufgaben eines Roboters zuverlässig zu erkennen.
Der Ansatz kombiniert die Informationen aus den verschiedenen Modalitäten unter Verwendung von Entropie-basierter Gewichtung und berücksichtigt dabei die Anforderungen der Aktionen sowie die Eigenschaften der Objekte in der Szene. Mehrere Ablationsstudien zeigen die Wichtigkeit der einzelnen Komponenten des Systems, insbesondere in Situationen mit verrauschten, fehlenden oder nicht abgestimmten Beobachtungen.
Der Ansatz wurde sowohl in simulierten als auch in realen Experimenten evaluiert. In den realen Experimenten mit 3 Teilnehmern konnte gezeigt werden, dass der Ansatz auch in der Praxis robust funktioniert und die Absichten des Menschen zuverlässig erkennt, selbst wenn eine der Modalitäten irreführende Informationen liefert.
Darüber hinaus wurde ein adaptiver Entropie-basierter Schwellenwert-Mechanismus entwickelt, der es ermöglicht, automatisch zwischen verschiedenen Interaktionsmodi (Ausführen der Aktion, Nachfragen beim Benutzer, Ignorieren des Befehls) zu wechseln. Dieser Mechanismus zeigt ähnliche Leistung wie manuell optimierte feste Schwellenwerte und ermöglicht eine einfache Anpassung an neue Umgebungen ohne manuelle Konfiguration.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문