本論文は、医療用基盤モデルの知識分解に関する新しい視点を提案している。基盤モデルは一般的な特徴抽出能力を持つが、特定のタスクに対する性能は依然として専門モデルに劣る。そこで本研究では、基盤モデルを複数の軽量な専門家モデルに分解することで、特化性能の向上と展開コストの削減を目指す。
具体的には、低ランク専門家モジュールと効率的な知識分離畳み込みを提案している。前者は各畳み込み層に対して少ないパラメータで十分な特徴表現能力を持つ専門家を提供し、後者は単一の順伝播で勾配を専門家モジュールに分離しつつ共通backbone に蓄積する。これにより、各専門家モジュールは特定のタスクの知識を学習し、共通backbone は共通知識を学習する。
実験の結果、提案手法は基盤モデルや他の手法と比べて優れた性能と転移性を示し、知識分解の有効性を実証している。さらに、パラメータ融合機構により、展開時に専門家モデルと共通backbone を統合できるため、展開コストを抑えつつ性能と転移性を維持できる。また、タスク知識の切り替えも容易に行えるという利点がある。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yuhang Zhou,... alle arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17184.pdfDomande più approfondite