Core Concepts
다양한 의사소통 모달리티를 활용하여 강력한 양성 증상을 보이는 조현병 환자와 건강한 대조군을 구분할 수 있다.
Abstract
이 연구는 오디오, 비디오, 텍스트 모달리티를 활용하여 조현병 환자와 건강한 대조군을 구분하는 다중 모달 분류 시스템을 개발하였다.
비디오에서는 안면 동작 단위(FAU)를, 오디오에서는 성도 변수(TV)를 저수준 특징으로 추출하였고, 이를 이용해 고수준 협응 특징을 계산하였다.
음성 전사본에서 추출한 문맥 독립 텍스트 임베딩을 텍스트 모달리티의 입력으로 사용하였다.
비디오와 오디오 모달리티의 세그먼트-세션 수준 분류기와 계층적 주의 집중 네트워크(HAN) 기반 텍스트 모델을 융합하여 다중 모달 시스템을 개발하였다.
제안된 다중 모달 시스템은 이전 최첨단 다중 모달 시스템보다 가중 평균 F1 점수에서 8.53% 향상된 성능을 보였다.
Stats
조현병 환자 7명, 건강한 대조군 11명으로 구성된 데이터베이스 사용
총 19.43시간의 50개 인터뷰 세션 데이터 활용
Quotes
"다양한 의사소통 모달리티를 활용하여 강력한 양성 증상을 보이는 조현병 환자와 건강한 대조군을 구분할 수 있다."
"제안된 다중 모달 시스템은 이전 최첨단 다중 모달 시스템보다 가중 평균 F1 점수에서 8.53% 향상된 성능을 보였다."