본 논문은 의료 방사선 이미지 표현 학습을 위한 HybridMED 프레임워크를 제안한다. 기존 방법들은 "소견"과 "인상" 섹션을 동등하게 취급하거나 단순히 전역 토큰 정렬을 수행했지만, HybridMED는 이 두 섹션 간의 계층적 관계를 활용한다.
HybridMED는 다음 세 가지 주요 구성 요소로 구성된다:
실험 결과, HybridMED는 다양한 하위 작업(분류, 탐지, 분할, 제로 샷 분류, 시각 질문 답변)에서 최신 기술을 능가하는 성과를 보였다. 이는 다수준 의미 계층 정렬과 생성 증류 구성 요소의 효과성을 입증한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hanqi Jiang,... lúc arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00448.pdfYêu cầu sâu hơn