核心概念
ドメイン固有の大規模言語モデル(LLM)は高い専門性を持ちながら、安全性に課題を抱えている。本稿で提案するMERGEALIGNは、ドメインベクトルとアラインメントベクトルを組み合わせることで、ドメイン知識を維持しながら安全性を向上させる効率的な手法である。
要約
MERGEALIGN: ドメイン固有LLMの安全性と実用性の両立
本論文は、特定の専門分野に特化した大規模言語モデル(LLM)の安全性向上に関する研究論文である。
近年、質問応答や要約など、様々なタスクにおいて優れた能力を発揮するLLMが登場している。しかし、汎用的なLLMは専門知識が不足しており、特定分野のタスクにおいては専門性の高いLLMが求められている。そこで、医療や金融などの分野に特化したドメイン固有LLMの開発が進められている。
しかし、ドメイン固有LLMは、その開発プロセスにおいて安全性への配慮が不足している場合が多く、有害なコンテンツを生成する可能性も孕んでいる。これは、ドメイン固有LLMのトレーニングデータに偏りがあることや、安全性に関する調整が十分に行われていないことが原因として挙げられる。
本研究の目的は、ドメイン固有LLMの安全性を向上させつつ、専門知識を維持するための効率的かつ効果的な手法を開発することである。