Core Concepts
大規模な未ラベルのオープンデータを活用して、事前学習済みの言語モデルをターゲットタスクに効率的にファインチューニングする手法を提案する。事前学習分布をターゲット分布に近づけるデータ選択が重要であり、提案手法はこの原則に基づいて優れた性能を示す。
Abstract
本研究では、大規模な未ラベルのオープンデータを活用して、事前学習済みの言語モデルをターゲットタスクに効率的にファインチューニングする手法を提案している。
従来のデータ選択手法は、ターゲットデータ分布に合わせてデータを選択するが、これは事前学習分布との乖離が大きい場合、十分な性能向上が得られない。そこで本手法では、事前学習分布をターゲット分布に近づけるデータ選択を行う。
具体的には、事前学習分布と候補データ分布の最適輸送距離の勾配を用いて、事前学習分布をターゲット分布に近づける方向のデータを選択する。これにより、限られたデータ選択予算の下で、ターゲットタスクの性能を大幅に向上できることを示している。
提案手法は、モデル毒性低減、ドメイン適応、一般的な自然言語理解タスクなど、様々な応用で優れた性能を発揮する。また、大規模データに対しても効率的に動作し、単一GPUで数分で選択が完了する。
Stats
事前学習モデルGPT-2ベースの場合、10Kサンプル選択で毒性スコアを0.17低減
8つのドメイン適応タスクで、150Kサンプル選択で平均F1スコアを1.13%向上
8つのGLUEタスクで、50Kサンプル選択で平均スコアを3.13%向上
Quotes
"事前学習分布をターゲット分布に近づけるデータ選択が重要である"
"提案手法は、様々な応用で優れた性能を発揮し、大規模データに対しても効率的に動作する"