Textanalyse

登入

洞見 - Textanalyse

Erkennung psychiatrischer Stressoren für Suizid aus Twitter-Daten mithilfe von Capsule Fusion

Die Erkennung psychiatrischer Stressoren, die mit Suizid in Verbindung stehen, aus Twitter-Daten kann zur Früherkennung und Prävention suizidaler Tendenzen beitragen.

Schätzung der lexikalischen Komplexität aus dokumentenweiten Verteilungen

Wir entwickeln einen zweistufigen Ansatz zur Quantifizierung der lexikalischen Komplexität, der keine vorannotierten Korpora erfordert. Wir zeigen, dass ein dokumentenweites Komplexitätsmaß (LIX) Texte aus vier verschiedenen Korpora in Komplexitätsklassen einteilen kann, und verwenden dann den Median der LIX-Werte, in denen ein Lemma auftritt, als Komplexitätsscore für dieses Lemma.

Effiziente Textclusterung mit Embeddings von Großen Sprachmodellen

Große Sprachmodelle wie OpenAI, BERT und Falcon liefern leistungsfähige Textembeddings, die eine effiziente Textclusterung ermöglichen. Die Wahl des Clusteralgorithmus und die Dimensionalität der Embeddings spielen eine wichtige Rolle für die Clusterqualität.

Methoden zur Generierung von Drifts in Textströmen

Dieser Artikel stellt vier Methoden zur Generierung von Konzeptdrifts in Textdatensätzen vor, um die Entwicklung und Evaluierung von Textstream-Klassifizierern und Konzeptdrift-Detektoren zu erleichtern.

Automatisierte Taxonomie-Generierung und Textklassifizierung in großem Maßstab mit Hilfe von Großen Sprachmodellen

Ein neuartiges zweiphasiges Framework (TnT-LLM) nutzt Große Sprachmodelle, um den Prozess der Taxonomie-Generierung und Textklassifizierung in großem Maßstab zu automatisieren und zu skalieren, mit minimalem menschlichen Aufwand.

Wie man Autorschaft durch Datenerweiterung verbessern kann

Die Studie untersucht, ob das Hinzufügen von synthetisch generierten Texten, die den Schreibstil eines bestimmten Autors imitieren, die Leistung eines Autorschaftsverifikations-Klassifikators verbessern kann.

Analyse von großen Textkorpora zur Offenlegung von Inhalten und Qualitätsproblemen

Große Textkorpora enthalten häufig Duplikate, synthetische und minderwertige Inhalte sowie persönlich identifizierbare Informationen, was die Qualität und Integrität von Sprachmodellen beeinträchtigen kann.

Standardisierung der Messung der Textvielfalt: Ein Werkzeug und eine vergleichende Analyse von Scores

Die Standardisierung von Textvielfalt-Scores ermöglicht eine effiziente Analyse und Vergleichbarkeit von Textgenerierungsmodellen.

Wie viel Annotation ist erforderlich, um Zusammenfassungsmodelle zu vergleichen?

Die Testgröße für die Auswahl des besten Zusammenfassungsmodells liegt unter 100 Beispielen, sowohl für automatische als auch menschliche Bewertungen.

關於我們

產品

資源