Główne pojęcia
事前学習モデルを使ったテキスト分類において、ドメイン間の一般化性能を向上させるために、層別の疎な表現学習手法を提案する。
Streszczenie
本研究では、事前学習モデルを使ったテキスト分類において、ドメイン間の一般化性能を向上させるための手法を提案している。
提案手法の概要は以下の通り:
- 事前学習モデルの各層から特徴を抽出し、それらの中から重要な特徴を選択的に保持するマスク層を学習する。
- トークンレベルの注意機構を導入し、予測に有用なトークンに注目する。
- 特徴選択とトークン選択を上位層から下位層へと順次行う、トップダウンの貪欲な学習手順を採用する。
この手法により、事前学習モデルの汎化性能が大幅に向上することが示されている。特に、大規模な学習データがない場合でも、提案手法は強力な性能を発揮する。また、特徴選択の過程を可視化することで、ドメイン間で共通する重要な特徴が学習されていることが確認できる。
Statystyki
事前学習モデルを使った場合と提案手法を使った場合の精度の差は、ソースドメインで6%以上、ターゲットドメインでは16%以上に及ぶ。
学習データサイズが1kから3.5Mに増えた際の精度差は、提案手法では6%未満だが、提案手法を使わない場合は16%を超える。
Cytaty
"事前学習モデルは強力な予測性能を発揮するが、訓練分布と大きく異なるデータに対しては頑健ではない。"
"本研究では、事前学習モデルの表現を選択的に保持することで、ドメイン間の一般化性能を大幅に向上させる手法を提案する。"