본 논문은 의료 방사선 이미지 표현 학습을 위한 HybridMED 프레임워크를 제안한다. 기존 방법들은 "소견"과 "인상" 섹션을 동등하게 취급하거나 단순히 전역 토큰 정렬을 수행했지만, HybridMED는 이 두 섹션 간의 계층적 관계를 활용한다.
HybridMED는 다음 세 가지 주요 구성 요소로 구성된다:
실험 결과, HybridMED는 다양한 하위 작업(분류, 탐지, 분할, 제로 샷 분류, 시각 질문 답변)에서 최신 기술을 능가하는 성과를 보였다. 이는 다수준 의미 계층 정렬과 생성 증류 구성 요소의 효과성을 입증한다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Hanqi Jiang,... alle arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00448.pdfDomande più approfondite