Alapfogalmak
본 논문에서는 대규모 언어 모델(LLM)을 활용하여 아동의 행동 영상 데이터에서 자폐 스펙트럼 장애(ASD)를 진단하는 새로운 비지도 학습 방식을 제안합니다.
Kivonat
스크립트 중심 행동 이해를 통한 자폐 스펙트럼 장애 보조 진단 연구 요약
본 연구 논문에서는 컴퓨터 비전 기술과 대규모 언어 모델(LLM)을 사용하여 아동의 사회적 행동을 분석하고 자폐 스펙트럼 장애(ASD)를 자동으로 진단하는 새로운 방법론을 제시합니다. 기존의 지도 학습 기반 ASD 진단 방법은 데이터 부족 및 진단 결과 해석의 어려움으로 인해 실제 임상 적용에 제한적이었습니다.
본 연구에서는 이러한 문제를 해결하기 위해 스크립트 중심 행동 이해(SCBU)라는 새로운 비지도 학습 접근 방식을 소개합니다.
본 연구의 주요 목표는 기존 ASD 진단 방법의 한계점을 극복하고, LLM을 활용하여 영상 데이터에서 ASD를 효과적으로 진단하는 것입니다. 특히, 데이터 부족 및 해석 가능성 문제를 해결하고, 제로샷 또는 퓨샷 학습 방식으로 ASD 진단을 수행하는 데 중점을 둡니다.
본 연구에서는 멀티모달 행동 데이터를 텍스트 기반 스크립트로 변환하는 행동 전사 모듈(BTM)과 스크립트 전사 모듈(STM)을 활용합니다.
행동 전사 모듈(BTM): 컴퓨터 비전 및 오디오 모델을 사용하여 영상에서 인물의 위치, 움직임, 표정, 발화 등 기본적인 행동 정보를 추출합니다.
스크립트 전사 모듈(STM): 추출된 행동 정보를 LLM이 이해할 수 있는 텍스트 형식의 스크립트로 변환합니다. 이 모듈은 응답 파서, 응답 텍스트화 모듈, 도메인 프롬프트 모듈로 구성됩니다.
응답 파서: 미리 정의된 이벤트(예: 대상 객체 응시, 손가락으로 가리키기, 미소, 발화, 퇴장 등) 발생 시점을 기록합니다.
응답 텍스트화 모듈: 이벤트를 시간 순서에 따라 텍스트로 변환하고, 행동의 속도, 지속 시간 등을 나타내는 부사를 추가하여 스크립트를 생성합니다.
도메인 프롬프트 모듈: LLM이 스크립트를 더 잘 이해하도록 도메인 지식(예: DSM-5 진단 기준) 및 인공 경험(예: 연구자의 LLM 활용 경험)을 스크립트에 통합합니다.