Die Studie untersucht die Robustheit und Generalisierbarkeit von Sarkasmus-Erkennungsmodellen, die auf verschiedenen Datensätzen trainiert wurden. Die Autoren verwenden vier bestehende Sarkasmus-Datensätze sowie einen neuen eigenen Datensatz, um folgende Erkenntnisse zu gewinnen:
Intra-Datensatz-Vorhersagen: Modelle, die auf Datensätzen mit Annotationen von Dritten trainiert wurden, zeigen bessere Leistungen als Modelle, die auf Autor-Annotationen trainiert wurden. Dies deutet darauf hin, dass Beobachter besser in der Lage sind, Sarkasmus zu erkennen als die Urheber selbst.
Cross-Datensatz-Vorhersagen: Die meisten Modelle generalisieren schlecht auf andere Datensätze, was zeigt, dass ein Datensatz nicht alle Formen und Stile von Sarkasmus abdecken kann. Der neue Datensatz CSC zeigt die höchste Generalisierbarkeit über die anderen Datensätze hinweg.
Qualitative Analyse: Die Autoren identifizieren unterschiedliche sprachliche Merkmale in den Datensätzen, die auf verschiedene Formen und Kontexte von Sarkasmus hinweisen, wie aggressiv vs. humorvoll, online vs. offline, selbstironisch vs. kritisch gegenüber anderen.
Die Ergebnisse zeigen, dass zukünftige Forschung zur Sarkasmus-Erkennung die Vielfalt von Sarkasmus berücksichtigen muss, anstatt sich auf eine enge Definition zu beschränken.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문