視覚質問応答(VQA)を活用することで、医療画像と報告書のペアから目的の病理学的特徴を効率的に学習できる。さらに、準テキスト特徴変換器(QFT)モジュールを提案し、視覚特徴をテキスト領域に近づけることで、モダリティ間のギャップを縮小する。
マルチモーダルプリトレーニングと中間トレーニングを組み合わせることで、音声認識の性能を大幅に向上させることができる。