核心概念
医療用事前学習言語モデルの著作権を保護するための新しいトレーニングフリーのバックドアウォーターマーキング手法を提案する。
摘要
本論文は、医療用事前学習言語モデル(Med-PLM)の著作権保護のための新しい手法を提案している。従来の手法は、モデルのパラメータを変更するため、医療分野での高い精度が要求されるタスクでは適用が難しかった。
提案手法は以下の3つのステージから構成される:
- トリガーワードと医療用語の選定: 特殊記号をトリガーワードとし、医療用語と対応付ける。
- ウォーターマークの埋め込み: トリガーワードの単語埋め込みを対応する医療用語の埋め込みに置き換える。
- ウォーターマークの抽出: 最終モデルにトリガーワードを入力し、医療用語と同様の出力が得られるかを確認することで、ウォーターマークを抽出する。
実験の結果、提案手法は既存手法と比べて、精度の低下を抑えつつ、高い抽出率を達成できることが示された。また、トレーニングを必要としないため、効率的にウォーターマークを埋め込むことができる。
統計資料
医療用語を含む入力文に対して、最終モデルがトリガーワードを医療用語と同様に扱う。
医療用語を含む質問に対して、最終モデルがトリガーワードを正解として出力する。
引述
"医療用事前学習言語モデルは貴重な資産であるが、不正利用や盗難のリスクにさらされており、著作権保護が喫緊の課題となっている。"
"提案手法は、モデルのパラメータを変更せずに、単語埋め込み層のみを書き換えることで、トレーニングを必要とせずにウォーターマークを埋め込むことができる。"