Der Artikel stellt MoNet, ein neuartiges modulares End-to-End-Netzwerk für selbstüberwachtes und interpretierbares sensorimotorisches Lernen, vor. MoNet besteht aus drei funktional getrennten neuronalen Modulen: Wahrnehmung, Planung und Steuerung. Durch die inhärente Modularität und eine kognitionsgeleitete kontrastive Verlustfunktion lernt MoNet effizient aufgabenspezifische Entscheidungsprozesse im latenten Raum, ohne aufgabenspezifische Überwachung zu benötigen. Darüber hinaus integriert unser Ansatz ein Online-Post-hoc-Erklärbarkeitsverfahren, das die Interpretierbarkeit der End-to-End-Inferenzen ohne Kompromisse bei der sensorimotorischen Leistung erhöht. In Experimenten in realen Innenumgebungen zeigt MoNet eine effektive visuelle autonome Navigation und übertrifft Basismodelle um 11% bis 47% in der Aufgabenspezifität. Wir untersuchen auch die Interpretierbarkeit unseres Netzwerks durch Post-hoc-Analyse von Wahrnehmungssalienz-Karten und latenten Entscheidungsvektoren, was Einblicke in die Integration von erklärbarer künstlicher Intelligenz im Bereich des Robotiklernens bietet.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hyunki Seong... kl. arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.18947.pdfDybere Forespørgsler