Core Concepts
사전 학습된 대규모 언어 모델, 다중 모달 시각-언어 모델, 음성 인식 모델을 활용하여 인간이 음성 및 텍스트 대화를 통해 자율 에이전트와 자연스럽게 상호작용할 수 있는 방법을 제안한다.
Abstract
이 논문에서는 사전 학습된 대규모 언어 모델(LLM), 다중 모달 시각-언어 모델(VLM), 음성 인식(SR) 모델의 기능을 활용하여 인간이 자율 에이전트와 음성 및 텍스트 대화를 통해 자연스럽게 상호작용할 수 있는 방법을 제안한다.
제안된 프레임워크의 주요 구성 요소는 다음과 같다:
LLMNode: 텍스트 기반 자연어 대화를 해석하는 모듈
CLIPNode: 로봇 작업 환경에 대한 시각적 및 의미론적 이해를 제공하는 모듈
REM node: LLMNode의 고수준 이해를 실제 로봇 동작으로 추상화하는 모듈
ChatGUI: 사용자의 텍스트 기반 상호작용 인터페이스
SRNode: 음성 대화를 텍스트로 변환하는 모듈
실제 실험에서 제안된 프레임워크는 87.55%의 음성 명령 이해 정확도, 86.27%의 명령 실행 성공률, 0.89초의 평균 응답 지연 시간을 달성했다. 이는 사전 학습된 모델을 활용하여 인간과 자율 에이전트 간의 자연스러운 상호작용을 실현할 수 있음을 보여준다.
향후 연구에서는 환경 소음의 영향을 줄이기 위한 적응형 노이즈 제거 알고리즘과 상황 인식 음성 인식 기술을 추가할 계획이다.
Stats
음성 명령 이해 정확도: 87.55%
명령 실행 성공률: 86.27%
평균 응답 지연 시간: 0.89초