المفاهيم الأساسية
흉부 X선 이미지 분석에 의미론적 분할 마스크를 통합하면 멀티모달 대규모 언어 모델(MLLM)의 정확도와 성능을 향상시켜 보다 상세하고 정확한 방사선 보고서를 생성할 수 있습니다.
الملخص
MAIRA-Seg: 흉부 X선 보고서 생성을 위한 의미론적 분할 기반 MLLM 프레임워크
본 연구 논문에서는 흉부 X선(CXR) 영상에서 생성된 의미론적 분할 마스크를 활용하여 멀티모달 대규모 언어 모델(MLLM)의 성능을 향상시키는 MAIRA-Seg 프레임워크를 제안합니다.
본 연구의 목표는 CXR 영상 분석에 의미론적 분할 마스크를 통합하여 MLLM의 정확도와 성능을 향상시켜 보다 상세하고 정확한 방사선 보고서를 생성하는 것입니다.
먼저 CXR 영상에서 여러 해부학적 구조를 분할하도록 훈련된 전문가 분할 모델을 활용합니다.
EfficientNet-UNet 아키텍처를 기반으로 하는 이러한 모델은 입력 방사선 영상에 해당하는 의미론적 분할 마스크를 예측합니다.
그런 다음 마스크는 훈련 또는 추론을 위해 MLLM에 의사 레이블 입력으로 제공됩니다.
마스크는 이미지 인코더 기능과 함께 Osprey 아키텍처를 기반으로 하는 훈련 가능한 분할 토큰 추출기를 훈련하는 데 사용되어 각 개별 마스크에 대해 두 개의 추가 분할 토큰(마스크 토큰, 공간 토큰)을 생성합니다.
연구진은 이러한 토큰을 대규모 언어 모델(LLM)의 입력에 통합하는 방법을 조사하고 텍스트 및 이미지 토큰과 인터리브된 분할 토큰을 사용합니다.
또한 사용 가능한 마스크 정보를 사용하여 즉석에서 입력 프롬프트를 보강하여 MLLM을 훈련하기 위해 새로운 명령어 조정 데이터 세트를 선별하는 오버헤드를 줄입니다.