核心概念
大規模言語モデルを使用して、プライベートなユーザーデータの分布に近いデータを合成することで、プライベートな環境でのモデル学習を改善できる。
要約
本論文では、大規模言語モデル(LLM)を活用して、プライベートなユーザーデータの分布に近いデータを合成する手法を提案している。具体的には以下の3つのアプローチを検討している:
既存の公開データ(C4)をフィルタリングして、モバイル端末上で議論されそうなトピックのみを抽出する。
LLMに対して、モバイル端末上でのチャットを想定したプロンプトを与え、新規のチャットデータを生成する。
公開データ(C4)の内容をモバイル端末上でのチャットに変換する。
これらの合成データを使用してモデルを事前学習し、その後にプライベートなユーザーデータを用いてファインチューニングを行うことで、より高精度なモデルを得ることができる。実験の結果、提案手法により、ベースラインと比較して最大22.8%の精度向上が確認された。また、A/Bテストでも提案手法の有効性が示された。
統計
モバイル端末上での会話を想定したチャットデータの生成により、ボキャブラリカバレッジが99.0%まで向上した。
公開データ(C4)のフィルタリングにより、データサイズを782GBから136GBに削減できた。
引用
"LLMを使用して、プライベートなユーザーデータの分布に近いデータを合成することで、プライベートな環境でのモデル学習を改善できる。"
"提案手法により、ベースラインと比較して最大22.8%の精度向上が確認された。"