Основні поняття
음성 단서를 활용하면 LLM의 로봇 네비게이션 작업 의사결정 능력을 향상시킬 수 있다.
Анотація
이 연구는 LLM(Large Language Model)의 로봇 네비게이션 작업 의사결정 능력을 향상시키기 위해 음성 단서를 활용하는 방법을 제안한다.
현재 LLM은 텍스트 기반 입력에 능숙하지만, 음성 정보의 미묘한 단서를 해석하는 데 어려움을 겪는다. 이는 사회적 네비게이션 상황에서 인간의 불확실한 음성 지침을 해석하는 데 문제가 된다.
이 연구에서는 Beyond Text라는 접근법을 제안한다. Beyond Text는 오디오 전사와 더불어 음높이, 크기, 지속 시간과 같은 감정적 음성 단서를 통합하여 LLM의 의사결정을 향상시킨다.
실험 결과, Beyond Text는 기존 LLM 대비 22.16%에서 48.30% 더 높은 승률을 보였다. 또한 토큰 조작 공격에 대한 강건성도 22.44% 더 높았다. 이는 음성 단서가 LLM의 불확실성 해석 능력을 크게 향상시킨다는 것을 보여준다.
이 연구는 또한 DNIA(Disfluent Navigational Instruction Audio Dataset)라는 새로운 데이터셋을 소개했다. DNIA는 음성 불확실성이 포함된 500개의 오디오 클립으로 구성되어 있으며, 향후 이 분야의 연구에 활용될 수 있다.
Статистика
기존 LLM 대비 Beyond Text의 승률이 22.16%에서 48.30% 더 높았다.
토큰 조작 공격에 대한 Beyond Text의 강건성은 기존 LLM 대비 22.44% 더 높았다.
Цитати
"Beyond Text marks an advancement in social robot navigation and broader Human-Robot interactions, seamlessly integrating text-based guidance with human-audio-informed language models."
"Our results show low bias and low variance: a 70.26%+ winning rate in detecting the uncertainty and generating appropriate next-step action and a low confidence score compared to only using LLMs to read textual transcription, indicating increased high confidence in analyzing human uncertainty."