本研究では、小規模言語モデルに対して効果的なプロンプト学習手法を提案している。具体的には以下の通りである:
事前学習済みの言語モデルから、Masked Language Modeling 目的関数を用いて、最も変化の大きかったパラメータを選択する。これらのパラメータは言語に依存しない知識を含むと考えられる。
選択したパラメータとプロンプト関連のパラメータのみを更新し、他のパラメータは固定したままでプロンプト学習を行う。これにより、言語固有の知識を大きく変化させずに、効率的にプロンプト学習を行うことができる。
この手法をLottery Ticket Prompt-learning (LTP) と呼び、XNLI及びAmericasNLIデータセットで評価した。実験の結果、LTPは少数shot学習においても、ベースラインを大きく上回る性能を示した。特に、パラメータ数を20%に削減しても高い性能を維持できることが分かった。
さらに、中間層のパラメータを選択することで、パラメータ数をさらに削減しつつ、同等の性能を得られることを示した。これは、中間層のパラメータが言語間の共通性を捉えやすいためと考えられる。
以上のように、LTPは小規模言語モデルに対して効果的なプロンプト学習手法を提供し、特に低リソース言語への適用において優れた性能を示している。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Mingqi Li,Fe... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01242.pdfPerguntas Mais Profundas