Kernkonzepte
최근 작업 및 동작 계획(TAMP) 연구에서는 언어 감독 로봇 궤적 데이터를 활용하여 에이전트의 작업 성공률을 크게 향상시킬 수 있음이 입증되었다. 그러나 이러한 데이터의 부족은 이 방법을 일반적인 사용 사례로 확장하는 데 큰 장애물이 되고 있다. 이를 해결하기 위해 본 연구에서는 최근 대형 언어 모델(LLM) 및 비전 언어 모델(VLM)을 포함한 기반 모델(FM)의 프롬프팅 전략을 활용하여 궤적 데이터를 시간적으로 제한되고 자연어 기반의 설명적 하위 작업으로 자동 분해하는 프레임워크를 제안한다.
Zusammenfassung
본 연구는 로봇 궤적 데이터를 자동으로 하위 작업으로 분해하는 프레임워크를 제안한다. 이를 위해 최근 대형 언어 모델(LLM) 및 비전 언어 모델(VLM)을 포함한 기반 모델(FM)의 프롬프팅 전략을 활용한다.
주요 내용은 다음과 같다:
- FM을 활용하여 원시 다중 모달 궤적 데이터를 입력받고 하위 작업 분해(ˆS)를 예측하는 프레임워크를 제안한다.
- 실제 하위 작업 분해(S)와 FM 예측(ˆS) 간의 시간적 정렬과 의미적 충실도를 측정하는 유사성 지표(τk, τζ)를 개발한다.
- 다양한 로봇 환경에서 실험을 수행하여 제안 프레임워크의 효과를 검증한다. 결과적으로 τk와 τζ 모두 90% 이상의 점수를 보여 FM 예측의 정확성을 입증한다.
이를 통해 다양하고 대규모의 언어 감독 데이터셋을 구축하여 향상된 로봇 TAMP 기술을 개발할 수 있다.
Statistiken
작업 및 동작 계획(TAMP) 응용 프로그램에서 언어 감독 로봇 궤적 데이터를 활용하면 에이전트의 작업 성공률이 크게 향상된다.
대규모 언어 주석 로봇 궤적 데이터의 부족은 이 방법을 일반적인 사용 사례로 확장하는 데 큰 장애물이 되고 있다.
본 연구에서 제안한 프레임워크를 통해 다양하고 대규모의 언어 감독 데이터셋을 구축할 수 있다.
Zitate
"최근 작업 및 동작 계획(TAMP) 연구에서는 언어 감독 로봇 궤적 데이터를 활용하면 에이전트의 작업 성공률이 크게 향상된다."
"대규모 언어 주석 로봇 궤적 데이터의 부족은 이 방법을 일반적인 사용 사례로 확장하는 데 큰 장애물이 되고 있다."
"본 연구에서 제안한 프레임워크를 통해 다양하고 대규모의 언어 감독 데이터셋을 구축할 수 있다."