Centrala begrepp
大規模言語モデルは反事実を生成することができるが、最小限の変更を行うことが困難である。感情分析の反事実生成は自然言語推論よりも容易であり、人間が生成した反事実と比べると性能が劣る。
Sammanfattning
本研究は、大規模言語モデル(LLM)の反事実生成能力を包括的に評価している。
- 感情分析(SA)と自然言語推論(NLI)の2つのNLUタスクを対象に、複数のLLMを比較している。
- 反事実の品質を表す指標として、ラベル反転率、テキストの類似度、パープレキシティを用いて評価している。
- 反事実を用いたデータ拡張の効果を検証し、人間が生成した反事実と比較している。
- LLMを用いて反事実を評価する手法を提案し、その信頼性を検討している。
結果は以下の通り:
- LLMは流暢な反事実を生成できるが、最小限の変更を行うことが困難である。
- SAの反事実生成はNLIよりも容易である。
- LLMによる反事実を用いたデータ拡張は、SAでは人間生成の反事実と同等の性能を達成できるが、NLIではまだ改善の余地がある。
- LLMは与えられたラベルに強く同意する傾向があり、特にNLIタスクでその傾向が強い。GPT-4はこの偏りが小さく、自動指標との相関も高い。
Statistik
感情分析の反事実を生成したLLMの中で、GPT3.5とLLAMA2 7Bが最も効果的なデータ拡張を実現した。
自然言語推論の反事実生成では、人間生成の反事実と比べてLLMの性能が大幅に劣っていた。
Citat
"LLMは流暢な反事実を生成できるが、最小限の変更を行うことが困難である。"
"SAの反事実生成はNLIよりも容易である。"
"LLMによる反事実を用いたデータ拡張は、SAでは人間生成の反事実と同等の性能を達成できるが、NLIではまだ改善の余地がある。"