核心概念
継続的事前学習は、教師なし領域適応の文脈において、ドメイン不変表現学習に匹敵する性能を発揮し、より安定した振る舞いを示す。
要約
本研究では、教師なし領域適応(UDA)の文脈における継続的事前学習(CPT)の有用性を評価している。
まず、40の実世界のドメインペアを用いた実験的評価を行い、CPTがドメイン不変表現学習に基づく最先端手法と同等の性能を発揮し、より安定した振る舞いを示すことを明らかにした。
次に、CPTの一般性を検証するため、異なるモデルアーキテクチャ、チューニング手法、データ量の設定で評価を行った。その結果、CPTは安定して良好な性能を発揮することが示された。
さらに、事前学習時のターゲットドメインへの露出度が重要であることを明らかにした。マスキング率を上げることで、ターゲットドメインの性能が急激に低下することが分かった。
最後に、マスクされた単語の予測が、ダウンストリームタスクに関連する特徴を暗黙的に学習することで、分類性能の向上に寄与していることを示唆した。
本研究は、教師なし領域適応の研究とインストラクション調整の研究を接続し、現代の言語モデルの適用範囲拡大に向けた初期的な一歩を示している。
統計
教師なし領域適応の文脈では、ターゲットドメインへの露出度が高いほど、分類性能が向上する。
マスキング率を上げると、ソースドメインの性能は維持されるものの、ターゲットドメインの性能が急激に低下する。
引用
マスクされた単語の予測を通じて、ダウンストリームタスクに関連する特徴を暗黙的に学習することで、分類性能の向上に寄与している。