Core Concepts
본 연구는 변환기 아키텍처와 자기 주의 메커니즘을 기반으로 하는 다중 모달 융합 프레임워크 Multitrans를 제안합니다. 이 프레임워크는 뇌졸중 치료를 받는 환자의 비조영 컴퓨터 단층 촬영(NCCT) 영상과 퇴원 진단 보고서를 활용하여 뇌졸중 치료의 기능적 결과를 예측합니다.
Abstract
본 연구는 다중 모달 융합 프레임워크 Multitrans를 제안합니다. 이 프레임워크는 변환기 아키텍처와 자기 주의 메커니즘을 기반으로 합니다.
데이터 처리 과정:
모든 모달리티의 데이터를 시퀀스 데이터로 표현하고 위치 토큰과 학습 가능한 분류 토큰(CLS)을 추가합니다.
변환기 인코더에 데이터를 입력합니다. 각 변환기 블록은 정규화 레이어, 다중 헤드 자기 주의(MHSA) 메커니즘, 그리고 다층 퍼셉트론(MLP) 헤더로 구성됩니다.
MLP 헤더를 사용하여 이미지와 텍스트 표현을 추출합니다.
다른 표현을 연결하고 다중 모달 융합 모듈에 입력합니다.
최종 결과를 MLP 분류기에 입력하여 출력합니다.
실험 결과:
단일 모달 텍스트 분류가 단일 모달 이미지 분류보다 성능이 크게 우수합니다.
다중 모달 조합의 효과가 단일 모달보다 더 좋습니다.
변환기 모델이 이미지 데이터에서만 성능이 낮지만, 임상 메타 진단 정보와 결합하면 상호보완적인 정보를 더 잘 학습하고 뇌졸중 치료 효과를 정확하게 예측할 수 있습니다.
향후 연구 방향:
다중 모달 프레임워크에 더 많은 모달 정보를 추가하여 연구
엔드-투-엔드 다중 모달 모델 최적화에 대한 심층 연구
Stats
뇌졸중 환자 128명의 데이터를 사용했으며, 이 중 42명은 동맥 내 치료를 받았고 86명은 일반 치료를 받았습니다.
데이터는 7:2:1 비율로 분할하여 학습했습니다.
결과는 90일 후 수정 랭킨 척도(mRS) 점수로 평가했으며, mRS ≤ 2는 좋은 결과, mRS > 2는 나쁜 결과로 간주했습니다.
Quotes
"변환기 모델이 이미지 데이터에서만 성능이 낮지만, 임상 메타 진단 정보와 결합하면 상호보완적인 정보를 더 잘 학습하고 뇌졸중 치료 효과를 정확하게 예측할 수 있습니다."