本研究では、大規模言語モデル(LLM)の生物医学知識の堅牢性を評価するために、効率的なサンプリング攻撃手法を開発しました。
主な内容は以下の通りです:
型一致エンティティ置換(TCES)と呼ばれる攻撃手法を提案しました。これは、生物医学分野の固有表現(NE)を置換することで、LLMの生物医学知識の脆弱性を明らかにするものです。
距離加重サンプリング(PDWS)という新しいサンプリング手法を開発しました。これは、エンティティ埋め込み空間における距離情報を利用して、効率的に敵対的ディストラクターを生成することができます。
FDA承認薬と疾患名のデータセットを使用し、MedQA-USMLEとMedMCQAの生物医学QAデータセットを拡張しました。これにより、LLMの薬剤名と疾患名に関する知識の堅牢性を評価しました。
サンプリングベースの攻撃手法とグラデーションベースの攻撃手法を統一的に扱い、クエリ効率の観点から比較しました。サンプリング手法が低クエリ予算設定下で有利であることを示しました。
エンティティ置換攻撃がモデル説明可能性に与える影響を分析し、成功攻撃の特徴を明らかにしました。
以上の結果から、LLMの生物医学知識の脆弱性が明らかになりました。本研究は、高信頼性が求められる生物医学分野におけるLLMの適用を考える上で重要な知見を提供します。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by R. Patrick X... às arxiv.org 09-17-2024
https://arxiv.org/pdf/2402.10527.pdfPerguntas Mais Profundas