Core Concepts
Großsprachmodelle wie GPT-2, DialoGPT, FlanT5 und ChatGPT können effektiv Gegendarstellungen in einer Zero-Shot-Einstellung generieren, wobei ChatGPT die besten Ergebnisse erzielt.
Abstract
Die Studie untersucht die Leistung von vier Großsprachmodellen (GPT-2, DialoGPT, FlanT5 und ChatGPT) bei der Erstellung von Gegendarstellungen in einer Zero-Shot-Einstellung. Dies ist der erste Versuch dieser Art.
Die Hauptbeobachtungen sind:
- ChatGPT übertrifft alle anderen Modelle in Bezug auf Generierungsmetrik, Engagement und Qualität der Gegendarstellungen.
- Mit zunehmender Größe der DialoGPT- und GPT-2-Modelle nimmt die Toxizität der generierten Beiträge um 25-44% zu.
- Bei der Erstellung von Gegendarstellungen bestimmter Typen (z.B. Tatsachen, Heuchelei, Humor) erzielen die Prompting-Strategien (manuell, häufigkeitsbasiert, clusterbasiert) bessere Ergebnisse als die Basismodelle.
Stats
Mit zunehmender Größe der DialoGPT- und GPT-2-Modelle nimmt die Toxizität der generierten Beiträge um 25-44% zu.
ChatGPT erzielt eine um 12% höhere GLEU-Punktzahl, eine um 32% höhere METEOR-Punktzahl und eine um 42,25% höhere BLEURT-Punktzahl als andere Modelle.
Die Qualität der Gegendarstellungen und die Argumentationsqualität verbessern sich bei ChatGPT um 120% bzw. 35% im Vergleich zu anderen Modellen.
Die Lesbarkeit der von ChatGPT generierten Beiträge nimmt jedoch um 35% ab.
Quotes
Keine relevanten Zitate gefunden.