이 논문은 사용자와 로봇이 협력하여 가정 내 작업을 수행할 때, 사용자의 음성 지시가 잡음, 억양, 발음 오류 등으로 인해 모호해지는 문제를 다룹니다. 기존의 음성 인식 및 언어 이해 모델은 이러한 상황에서 제대로 작동하지 않습니다.
이 논문에서 제안하는 SIFToM 모델은 인지과학의 마음이론(Theory of Mind)을 활용하여, 사용자의 행동과 상황 맥락을 바탕으로 사용자의 목표와 계획을 추론합니다. 이를 통해 모호한 음성 지시를 보다 정확하게 이해하고, 협력적으로 과제를 수행할 수 있습니다.
실험 결과, SIFToM 모델은 기존 음성 인식 및 언어 이해 모델에 비해 음성 지시 이해 정확도와 과제 수행 속도가 크게 향상되었으며, 사용자 수준에 근접하는 성능을 보였습니다. 또한 SIFToM의 오류는 다른 모델에 비해 상대적으로 덜 치명적이었습니다.
이 연구는 로봇이 사용자와 효과적으로 협력하기 위해서는 단순한 음성 인식 및 언어 이해를 넘어, 상황 맥락을 활용한 추론 능력이 필요함을 보여줍니다. SIFToM 모델은 이러한 능력을 갖춘 로봇 시스템 개발에 기여할 것으로 기대됩니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Lance Ying, ... في arxiv.org 09-18-2024
https://arxiv.org/pdf/2409.10849.pdfاستفسارات أعمق