本論文は、低リソース環境における対話生成の課題に取り組むため、大規模言語モデルを活用したデータ拡張手法を提案している。
まず、少量の対話データ(シード対話)をサマリ化し、その要約を用いて大規模言語モデルによる多様な対話要約の生成を行う。次に、生成された要約を基に、大規模言語モデルを用いて対話データを生成する。この手法により、シード対話と同様の分布を持ちつつ、高品質かつ多様な対話データを生成することができる。
提案手法の有効性を評価するため、新たな指標「SEMANTICDIVERSITY」を提案し、従来手法との比較を行った。実験の結果、提案手法が最も高い対話の流暢性と意味的多様性を示し、生成された対話データを用いて対話モデルの性能を向上させることができることが確認された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhenhua Liu,... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00361.pdfDeeper Inquiries