本論文では、大規模言語モデルのデプロイメントに付随するガードレールモデル(不適切な出力を検出するモデル)を、訓練なしで単一の多機能モデルに統合する手法を提案している。
ガードレールモデルは通常大規模言語モデルと同様に大規模であり、推論時の複雑性と費用を増大させる。提案手法「Heterogeneous Multi-Class Model Merging (HM3)」は、これらの異なるラベル空間を持つ分類器を単一のモデルに統合する。
HM3では、各分類器の出力層を拡張し、同一の出力構造を持つようにする。これにより、既存の訓練なしモデル統合手法(Model Soup、TIES、DARE-TIES)を適用できる。
実験の結果、HM3を用いて統合したモデルは、個別のモデルと比べて同等以上の性能を示し、推論時間も最大44%短縮できることが分かった。また、性能の低い分類器は自己統合(self-merging)によって性能が向上するが、高性能な分類器は影響を受けないことが明らかになった。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Stefan Hackm... ที่ arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19173.pdfสอบถามเพิ่มเติม