核心概念
小規模言語モデルに対して、Lottery Ticket Hypothesis に基づいて選択された重要なパラメータのみをプロンプト学習することで、効率的かつ効果的に多言語タスクを実現する。
摘要
本研究では、小規模言語モデルに対して効果的なプロンプト学習手法を提案している。具体的には以下の通りである:
事前学習済みの言語モデルから、Masked Language Modeling 目的関数を用いて、最も変化の大きかったパラメータを選択する。これらのパラメータは言語に依存しない知識を含むと考えられる。
選択したパラメータとプロンプト関連のパラメータのみを更新し、他のパラメータは固定したままでプロンプト学習を行う。これにより、言語固有の知識を大きく変化させずに、効率的にプロンプト学習を行うことができる。
この手法をLottery Ticket Prompt-learning (LTP) と呼び、XNLI及びAmericasNLIデータセットで評価した。実験の結果、LTPは少数shot学習においても、ベースラインを大きく上回る性能を示した。特に、パラメータ数を20%に削減しても高い性能を維持できることが分かった。
さらに、中間層のパラメータを選択することで、パラメータ数をさらに削減しつつ、同等の性能を得られることを示した。これは、中間層のパラメータが言語間の共通性を捉えやすいためと考えられる。
以上のように、LTPは小規模言語モデルに対して効果的なプロンプト学習手法を提供し、特に低リソース言語への適用において優れた性能を示している。
統計資料
選択したパラメータの約69%が入力層のパラメータであり、入出力層を分離することで39%まで削減できた。
中間層のパラメータを選択した場合、1-2shot設定では全層選択より優れた性能を示した。
引述
"Lottery Ticket Hypothesis concluded that training a sub-network in isolation can match the performance of training the entire network, and they defined this trainable sub-network as winning tickets."
"Selecting the English winning ticket proves advantageous for enhancing target languages in the in-language prompting scenario, as English-related parameters contain valuable semantic information."