Core Concepts
効率的なプリトレーニングのためのデータ選択手法の提案と評価
Abstract
本論文では、大規模なコーパスからドメイン特有のデータを効率的に選択する手法 TextGram を提案している。TextGram は、ターゲットドメインのn-gramを活用してドメイン関連データを選択し、さらにTextRankアルゴリズムを適用することで、ドメイン適応性の高いデータを抽出する。
実験では、RealNewsデータセットをアウトドメイン、IMDbデータセットをインドメインとして使用し、TextGramと既存の手法を比較評価している。結果として、TextGramが最も高い分類精度を達成しており、ドメイン適応プリトレーニングの効率化に有効であることが示された。
具体的な手順は以下の通り:
IMDbデータセットからn-gramを抽出し、高頻度n-gramを選定
選定したn-gramを用いてRealNewsデータセルクションを行う
選択したRealNewsデータとIMDbデータを結合し、文間類似度を計算
文間類似度に基づいてTextRankアルゴリズムを適用し、最終的な選択データを決定
選択データを用いてBERTモデルのプリトレーニングを行い、IMDbデータセットでの分類タスクで評価
提案手法のTextGramは、既存手法と比較して高い分類精度を達成しており、ドメイン適応プリトレーニングの効率化に有効であることが示された。
Stats
提案手法のTextGramを用いた場合の分類精度は91.02%
他の手法と比較して1%程度高い精度を達成
Quotes
"データ選択は、大規模なコーパスから関連性の高いデータを選択する重要なステップである。適切なデータ選択により、プリトレーニングの時間とリソースを大幅に削減できる。"
"TextGramは、ターゲットドメインのn-gramを活用し、さらにTextRankアルゴリズムを適用することで、ドメイン適応性の高いデータを効率的に抽出できる。"