核心概念
DiaSynthは、大規模言語モデルとChain of Thoughtを使って、特定のドメインにわたる高品質で文脈豊かな対話を生成する。
摘要
DiaSynthは、ユーザーが提供するトピックに基づいて対話を生成する3段階のパイプラインを持っています。
- サブトピック生成: 各トピックから複数のサブトピックを生成し、対話の深さを高めます。
- パーソナ生成: 各サブトピックに対して複数のパーソナを生成し、対話の多様性を確保します。
- 対話生成: サブトピックとパーソナを組み合わせて、Chain of Thoughtを使って文脈豊かな対話を生成します。
実験の結果、DiaSynthで生成したデータを使ってモデルを微調整すると、ベースラインモデルに比べて平均16.47%の性能向上が見られました。また、DiaSynthデータは、ドメイン固有のデータの90.48%の性能を捉えることができることが分かりました。これにより、DiaSynthが限られたリソースでも高品質な対話データを生成できる強力なツールであることが示されました。
統計資料
対話の平均ターン数は6.86から15.43
1ターンあたりの平均トークン数は13.53から31.99
対話の多様性(ROUGE-L)は0.27から0.30