核心概念
既存の公開データセットを検索・変換することで、特定のタスクに合わせた高品質な合成データを自動的に生成する。
要約
本論文は、特定のタスクに適したデータを生成する新しい手法「DataTune」を提案している。DataTuneは、まず大規模な公開データセットから関連性の高いデータセットを検索・選択し、次にそのデータセットを変換することで、目的のタスクに合わせた高品質な合成データを生成する。
DataTuneの主な特徴は以下の通り:
-
検索・選択: 大規模な公開データセットから、目的のタスクに最適なデータセットを検索・選択する。単なる関連性だけでなく、データの品質や多様性なども考慮する。
-
変換: 選択したデータセットを、目的のタスクに合わせて変換する。具体的には、入出力フォーマットの調整、新しい特徴量の生成、不要な情報の除去などを行う。
-
多様性と難易度: 変換によって生成されたデータは、既存の合成データ生成手法に比べて、より多様で難易度の高い例が含まれる。
-
相補性: DataTuneによる変換データと、既存の合成データ生成手法によるデータを組み合わせることで、相乗効果が得られる。
評価実験の結果、DataTuneは既存手法に比べて優れた性能を示し、特に多様性と難易度の点で優れていることが分かった。また、DataTuneと既存の合成データ生成手法を組み合わせることで、さらなる性能向上が確認された。
統計
既存の合成データ生成手法に比べ、DataTuneによって生成されたデータは、より多様で難易度の高い例が含まれる。
例えば、Code Line Descriptionsタスクでは、DataTuneによる生成データの50%以上が一意の例であるのに対し、合成データでは50%以上が重複していた。
一方で、Temporal SequencesタスクやMedical Questions in Russianタスクでは、DataTuneの性能が合成データ生成に劣る結果となった。
引用
"DataTune performs dataset transformation, enabling the repurposing of publicly available datasets into a format that is directly aligned with the specific requirements of target tasks."
"On a diverse set of language-based tasks from the BIG-Bench benchmark, we find that finetuning language models via DataTune improves over a few-shot prompting baseline by 49% and improves over existing methods that use synthetic or retrieved training data by 34%."
"We find that dataset transformation significantly increases the diversity and difficulty of generated data on many tasks."