이 논문은 사용자와 로봇이 협력하여 가정 내 작업을 수행할 때, 사용자의 음성 지시가 잡음, 억양, 발음 오류 등으로 인해 모호해지는 문제를 다룹니다. 기존의 음성 인식 및 언어 이해 모델은 이러한 상황에서 제대로 작동하지 않습니다.
이 논문에서 제안하는 SIFToM 모델은 인지과학의 마음이론(Theory of Mind)을 활용하여, 사용자의 행동과 상황 맥락을 바탕으로 사용자의 목표와 계획을 추론합니다. 이를 통해 모호한 음성 지시를 보다 정확하게 이해하고, 협력적으로 과제를 수행할 수 있습니다.
실험 결과, SIFToM 모델은 기존 음성 인식 및 언어 이해 모델에 비해 음성 지시 이해 정확도와 과제 수행 속도가 크게 향상되었으며, 사용자 수준에 근접하는 성능을 보였습니다. 또한 SIFToM의 오류는 다른 모델에 비해 상대적으로 덜 치명적이었습니다.
이 연구는 로봇이 사용자와 효과적으로 협력하기 위해서는 단순한 음성 인식 및 언어 이해를 넘어, 상황 맥락을 활용한 추론 능력이 필요함을 보여줍니다. SIFToM 모델은 이러한 능력을 갖춘 로봇 시스템 개발에 기여할 것으로 기대됩니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Lance Ying, ... ב- arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10849.pdfשאלות מעמיקות