이 논문은 웨어러블 센서 기반 인간 행동 인식(WSHAR) 분야에서 다중 모달 학습 기법의 활용 현황과 향후 발전 방향을 종합적으로 다루고 있다.
먼저 시각 기반 및 비시각 기반 센서 데이터의 특성과 장단점을 분석하였다. 시각 데이터는 풍부한 정보를 제공하지만 프라이버시 문제가 있고, 비시각 센서 데이터는 프라이버시를 보장하지만 정보가 제한적이다.
이어서 현재 WSHAR 분야에서 활용되고 있는 다중 모달 학습 기법을 두 가지 관점에서 소개하였다. 첫째, 시각 및 비시각 센서 데이터를 융합하는 inter-multimodal 접근법이다. 둘째, 비시각 센서 데이터 간 융합을 다루는 intra-multimodal 접근법이다.
마지막으로 WSHAR 분야의 주요 과제인 데이터셋 부족, 레이블 데이터 부족, 분포 불일치, 계산 비용 등에 대해 다중 모달 학습 기법을 활용한 해결 방안을 제시하였다. 특히 최근 발전한 대규모 언어 모델(LLM)과 생성 모델 기법을 WSHAR 문제에 적용하는 방안을 소개하였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問