Die Erkennung psychiatrischer Stressoren, die mit Suizid in Verbindung stehen, aus Twitter-Daten kann zur Früherkennung und Prävention suizidaler Tendenzen beitragen.
Wir entwickeln einen zweistufigen Ansatz zur Quantifizierung der lexikalischen Komplexität, der keine vorannotierten Korpora erfordert. Wir zeigen, dass ein dokumentenweites Komplexitätsmaß (LIX) Texte aus vier verschiedenen Korpora in Komplexitätsklassen einteilen kann, und verwenden dann den Median der LIX-Werte, in denen ein Lemma auftritt, als Komplexitätsscore für dieses Lemma.
Große Sprachmodelle wie OpenAI, BERT und Falcon liefern leistungsfähige Textembeddings, die eine effiziente Textclusterung ermöglichen. Die Wahl des Clusteralgorithmus und die Dimensionalität der Embeddings spielen eine wichtige Rolle für die Clusterqualität.
Dieser Artikel stellt vier Methoden zur Generierung von Konzeptdrifts in Textdatensätzen vor, um die Entwicklung und Evaluierung von Textstream-Klassifizierern und Konzeptdrift-Detektoren zu erleichtern.
Ein neuartiges zweiphasiges Framework (TnT-LLM) nutzt Große Sprachmodelle, um den Prozess der Taxonomie-Generierung und Textklassifizierung in großem Maßstab zu automatisieren und zu skalieren, mit minimalem menschlichen Aufwand.
Die Studie untersucht, ob das Hinzufügen von synthetisch generierten Texten, die den Schreibstil eines bestimmten Autors imitieren, die Leistung eines Autorschaftsverifikations-Klassifikators verbessern kann.
Große Textkorpora enthalten häufig Duplikate, synthetische und minderwertige Inhalte sowie persönlich identifizierbare Informationen, was die Qualität und Integrität von Sprachmodellen beeinträchtigen kann.
Die Standardisierung von Textvielfalt-Scores ermöglicht eine effiziente Analyse und Vergleichbarkeit von Textgenerierungsmodellen.
Die Testgröße für die Auswahl des besten Zusammenfassungsmodells liegt unter 100 Beispielen, sowohl für automatische als auch menschliche Bewertungen.