Conceitos Básicos
음성 정보와 시각 정보를 통합하여 자연스러운 대화 상황에서 발생하는 제스처를 효과적으로 탐지할 수 있다.
Resumo
이 연구는 음성과 시각 정보를 활용하여 자연스러운 대화 상황에서 발생하는 제스처를 탐지하는 방법을 제안한다. 기존 연구들은 주로 제한적인 제스처 집합이나 시각 정보만을 사용했지만, 이 연구에서는 음성 정보를 통합하여 제스처 탐지 성능을 향상시켰다.
구체적으로 다음과 같은 내용을 다룬다:
제스처의 형태와 지속 시간이 다양하게 나타나는 자연스러운 대화 상황에 초점을 맞춤
음성 정보에서 추출한 저수준 주파수 특징이 제스처 동반 여부와 관련이 있음을 확인
시간적 정렬과 문맥화를 위해 Transformer 인코더를 활용한 다중 모달 융합 기법 적용
시각 정보와 음성 정보를 통합하는 다양한 융합 기법(late, early, cross-modal)을 비교 평가
음성 정보 활용이 제스처 탐지 성능을 향상시키며, 특히 시각 정보 구간을 넘어선 음성 버퍼 사용이 효과적임을 확인
이 연구는 자연스러운 대화 상황에서 발생하는 제스처를 효과적으로 탐지하는 방법을 제시하여 다중 모달 의사소통 분석에 기여한다.
Estatísticas
음성 정보의 최대 MFCC[1] 값은 제스처가 동반될 때 더 높게 나타난다.
음성 정보의 F0 대비 첫 3개 고조파의 로그 비율이 제스처 동반 시 유의미하게 더 높다.
제스처가 동반될 때 음성 정보의 MFCC[1], MFCC[2] 최대값이 유의미하게 더 높다.
Citações
"음성 정보와 시각 정보를 통합하여 자연스러운 대화 상황에서 발생하는 제스처를 효과적으로 탐지할 수 있다."
"음성 정보 활용이 제스처 탐지 성능을 향상시키며, 특히 시각 정보 구간을 넘어선 음성 버퍼 사용이 효과적임을 확인했다."