Konsep Inti
LLMで生成した合成データを使うことで、少ない手動ラベル付けデータでもスタンス検出モデルの性能を向上させることができる。また、合成データを使ったアクティブラーニングにより、ラベル付けの労力を大幅に削減しつつ、同等以上の性能を達成できる。
Abstrak
本研究では、オンラインの政治的議論におけるスタンス検出の性能向上のために、2つの方法を提案している。
- 合成データを使ったファインチューニング
- 既存のスタンス検出データセットは特定の議題に関するデータが不足しがちである。
- LLMで生成した議題に関連した合成データを既存のデータセットに追加してファインチューニングすることで、モデルの性能を向上できる。
- 合成データを使ったアクティブラーニング
- スタンス検出のためのラベル付けデータを収集するのは労力がかかる。
- 提案手法「SQBC」では、LLMで生成した合成データをオラクルとして使い、最も有用な未ラベルデータを選択的にラベル付けする。
- これにより、ラベル付けの労力を大幅に削減しつつ、同等以上の性能を達成できる。
実験の結果、両手法ともにスタンス検出の性能を向上させることが示された。特に、合成データを使ったアクティブラーニングでは、ラベル付けデータの量を20%まで削減しても、ベースラインを上回る性能が得られた。また、合成データを既存のラベル付けデータに追加することでも、性能が向上した。
Statistik
「保険加入者がより多くの医療費を負担すべきか(例:最低自己負担額の引き上げ)」という議題に関して、訓練データ146件、テストデータ200件がある。
「アルコールとタバコの広告全面禁止に賛成か」という議題に関して、訓練データ63件、テストデータ43件がある。
「子供の予防接種を義務化すべきか」という議題に関して、訓練データ117件、テストデータ79件がある。
Kutipan
"LLMで生成した合成データを使うことで、少ない手動ラベル付けデータでもスタンス検出モデルの性能を向上させることができる。"
"合成データを使ったアクティブラーニングにより、ラベル付けの労力を大幅に削減しつつ、同等以上の性能を達成できる。"