Core Concepts
화자의 비언어적 단서를 해석하여 대화 상대를 추정하는 능력을 사회 로봇에게 부여하는 것이 이 연구의 핵심 목적이다.
Abstract
이 연구는 사회 로봇의 대화 상대 추정 능력 향상을 위해 화자의 얼굴 이미지와 신체 자세 벡터를 입력으로 하는 심층 신경망 모델을 개발했다.
실험 1에서는 세 가지 클래스(왼쪽, 로봇, 오른쪽)로 대화 상대의 위치를 분류하는 모델을 개발했다. 중간 융합 방식의 모델이 가장 좋은 성능을 보였으며, 얼굴 정보와 신체 자세 정보를 모두 활용하는 것이 효과적이었다. 특히 "로봇" 클래스 예측에는 신체 자세 정보가, "왼쪽"과 "오른쪽" 클래스 예측에는 얼굴 정보가 더 중요한 것으로 나타났다.
실험 2에서는 이진 분류 모델(로봇 대화 상대 vs 그 외)을 개발하여 기존 연구와 성능을 비교했다. 제안 모델이 기존 모델보다 우수한 성과를 보였으며, 특히 대화 시작 후 0.8초 만에 예측이 가능한 것이 장점이다.
이 연구는 사회 로봇의 대화 상대 추정 능력 향상을 위해 화자의 비언어적 단서를 활용하는 심층 학습 모델을 개발했다. 실제 상황에 적용 가능한 모델 설계와 평가 방법을 제안했다는 점에서 의의가 있다.
Stats
화자의 얼굴 이미지와 신체 자세 벡터를 입력으로 사용했다.
대화 상대의 위치를 "왼쪽", "로봇", "오른쪽"의 세 클래스로 분류했다.