본 연구는 자기 지도 학습 가능한 해석 가능한 감각-운동 제어 네트워크 MoNet을 제안한다. MoNet은 지각, 계획, 제어의 3가지 기능적으로 구분된 신경망 모듈로 구성되어 있다.
지각 모듈은 시각 입력과 지도 정보를 융합하여 잠재 특징 벡터를 생성한다. 계획 모듈은 이 잠재 특징 벡터를 입력받아 작업 관련 잠재 의사 결정 벡터를 출력한다. 제어 모듈은 잠재 의사 결정 벡터를 활용하여 하향식으로 감각-운동 제어 명령을 생성한다.
이 모듈 간 관계를 활용하여, 연구진은 인지 기반 대조 손실 함수를 설계하였다. 이 함수는 지각 모듈의 작업 관련 문맥을 활용하여 계획 모듈이 유사한 주행 상황에서 일관된 의사 결정을 내리도록 유도하고, 다른 상황에서는 구분되는 반응을 내놓도록 한다.
또한 연구진은 사후 다중 분류 방법을 통합하여 작업 관련 잠재 의사 결정을 이해 가능한 표현으로 디코딩한다. 이러한 모듈 간 계층 구조와 대조 체계, 그리고 사후 설명 가능성 방법의 결합을 통해 MoNet은 작업 관련이며 해석 가능한 의사 결정 메커니즘을 자기 지도 학습으로 구현할 수 있다.
실험 결과, MoNet은 실제 실내 환경에서 효과적인 시각 자율 주행을 수행하며, 작업 특정성 분석에서 기준 모델 대비 11%에서 47%의 성능 향상을 보였다. 또한 사후 분석을 통해 지각 주목 맵과 잠재 의사 결정 벡터를 시각화함으로써, 감각-운동 제어 과정의 해석 가능성과 투명성을 제공한다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы