본 연구 논문은 완전 작동 자율 수상 선박의 자율 도킹 작동을 위한 새로운 접근 방식을 제시합니다. 자율 도킹은 복잡한 수력학, 환경 교란 및 제한된 기동성으로 인해 어려운 문제입니다. 기존의 규칙 기반 접근 방식은 복잡하고 동적인 환경에 적응하는 데 어려움을 겪을 수 있습니다. 이 연구에서는 전문가의 시연 데이터를 활용하여 자율 시스템이 실제 데이터를 기반으로 동작을 조정할 수 있도록 하는 모방 학습 접근 방식을 제안합니다.
자율 주행 차량 분야에서 역강화 학습(IRL) 및 딥 러닝 접근 방식을 적용한 여러 연구가 수행되었습니다. Wulfmeier et al.은 도시 환경에서 전문가 시연으로부터 이동 가능성 지도를 학습하기 위해 최대 엔트로피 딥 IRL 프레임워크를 제안했습니다. Zhang et al.은 오프로드 차량의 궤적 예측을 개선하기 위해 두 단계 네트워크에 운동학적 특징과 환경적 맥락을 모두 통합했습니다. 자율 주행 차량 내비게이션 분야에서 Lee et al.은 도시 환경에서 자율 주행 차량의 로컬 경로 계획을 학습하기 위해 동적 점유 격자 지도와 함께 IRL을 적용했습니다.
역강화 학습은 전문가 데이터를 사용하여 보상 함수를 추론하고 추론된 보상 함수를 기반으로 정책을 공식화하는 모방 학습 알고리즘 중 하나입니다. 본 논문에서는 비선형 보상 함수를 포함하도록 딥 러닝 프레임워크를 통해 선형 보상 함수에서 진화한 최대 엔트로피 딥 역강화 학습(MEDIRL)을 구현에 사용했습니다.
MEDIRL 알고리즘을 훈련하기 위해 도킹 선박이 전문가의 행동을 모방할 수 있도록 전문가 데이터가 필요합니다. 본 논문에서는 도킹 시뮬레이션 설정을 구현하고 샘플링 기반 RRT* 계획 알고리즘을 통해 데이터를 생성했습니다.
이 실험에 사용된 네트워크 아키텍처는 Zhang et al.의 구현과 유사합니다. 입력은 환경 정보 지도, 목표 근접성 지도, 목표 영역 지도 및 과거 궤적 지도와 같은 특징 지도와 운동학적 특징으로 구성됩니다. 각 특징은 해당 시간 단계에서 4m*4m 선박 중심 격자 내에서 생성되어 현재 상태 및 주변 환경에 대한 충분한 정보를 캡처합니다.
네트워크는 시뮬레이션에서 생성된 500개의 궤적으로 훈련되었으며 50개의 다른 궤적으로 테스트되었습니다. 테스트 결과 모델이 환경 맥락과 선박의 운동학을 포착하여 현재 위치에서 가능한 경로를 생성할 수 있음을 보여줍니다. 결과는 선박 중심 프레임의 환경 정보 지도와 훈련된 정책에 의해 생성된 상태 방문 지도를 나란히 보여줍니다. 환경 정보 지도는 선박 중심 프레임에서 장애물이 있는 위치를 보여줍니다. 상태 방문 지도는 현재 상태 정보를 고려하여 선박의 가능한 경로를 전달합니다.
전문가 시연에서 무인 수상 선박의 자율 도킹을 가능하게 하기 위해 역강화 학습을 활용하는 제안된 접근 방식은 상당한 가능성을 가지고 있습니다. 현재 환경은 정적 장애물을 처리하지만 추가 개발의 길인 순환 신경망을 사용하여 동적 장애물로 확장할 수 있습니다. 다중 에ージェન્트 조정 및 도킹 시나리오를 처리하도록 프레임워크를 확장하면 조정된 해양 작전 및 협作 로봇 임무를 위한 새로운 가능성을 열 수 있습니다. 또한 전이 학습 및 지식 공유를 활용하면 새로운 환경이나 선박 구성에 대한 적응 프로세스를 가속화할 수 있습니다. 마지막으로 이 연구에서 개발된 원칙과 기술은 자율 항법, 장애물 회피 또는 수색 및 구조, 환경 모니터링과 같은 특수 임무와 같이 전문가 시연에서 복잡한 행동을 학습해야 하는 다른 해양 또는 로봇 작업에 잠재적으로 확장될 수 있습니다. 이러한 길을 추구함으로써 이 연구는 고급 자율 해양 작전, 해양 영역의 안전 및 효율성 향상을 위한 길을 열 수 있습니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor