核心概念
異なるラベル空間を持つ複数の分類器を、訓練なしで単一の多機能分類器に統合する手法を提案する。
要約
本論文では、大規模言語モデルのデプロイメントに付随するガードレールモデル(不適切な出力を検出するモデル)を、訓練なしで単一の多機能モデルに統合する手法を提案している。
ガードレールモデルは通常大規模言語モデルと同様に大規模であり、推論時の複雑性と費用を増大させる。提案手法「Heterogeneous Multi-Class Model Merging (HM3)」は、これらの異なるラベル空間を持つ分類器を単一のモデルに統合する。
HM3では、各分類器の出力層を拡張し、同一の出力構造を持つようにする。これにより、既存の訓練なしモデル統合手法(Model Soup、TIES、DARE-TIES)を適用できる。
実験の結果、HM3を用いて統合したモデルは、個別のモデルと比べて同等以上の性能を示し、推論時間も最大44%短縮できることが分かった。また、性能の低い分類器は自己統合(self-merging)によって性能が向上するが、高性能な分類器は影響を受けないことが明らかになった。
統計
単一のマージモデルを使用することで、推論時間を最大44%短縮できる。
提案手法HM3を用いて統合したモデルは、個別のモデルと比べて同等以上の性能を示す。
引用
"Foundation language model deployments often include auxiliary "guardrail" models to filter or classify text, detecting jailbreak attempts, biased or toxic output, or ensuring topic adherence."
"We propose Heterogeneous Multi-Class Model Merging (HM3) as a simple technique for merging multi-class classifiers with heterogeneous label spaces."
"We report promising results for merging BERT-based guard models, some of which attain an average F1-score higher than the source models while reducing the inference time by up to 44%."