核心概念
CAMANet enhances cross-modal alignment in radiology report generation by leveraging class activation maps and attention consistency.
要約
最近の医学リソース不足の緩和と放射線科医による疾患判断プロセスの支援のため、放射線報告生成(RRG)が注目されている。RRGモデルは画像領域と単語間のクロスモーダルアライメントを向上させ、異常を正確に捉えることが重要である。提案されたCAMANetは、クラス活性化マップを活用してクロスモーダルアライメントを促進し、識別的表現を豊かにする。
統計
CAMANet outperforms previous SOTA methods on two RRG benchmarks.
CAMANet achieves competitive results compared to PLMs and PVLMs on MIMIC-CXR dataset.