Wir entwickeln einen zweistufigen Ansatz zur Schätzung der lexikalischen Komplexität, der keine vorannotierten Korpora erfordert.
In der ersten Stufe zeigen wir, dass der LIX-Index, ein dokumentenweites Komplexitätsmaß, Texte aus vier verschiedenen Korpora (Kinderbücher, Zeitungsartikel, Enzyklopädiebeiträge, Parlamentstexte) in Komplexitätsklassen einteilen kann. Die Korpora decken ein breites Spektrum an Komplexität ab, von "sehr einfach" bis "sehr schwierig".
In der zweiten Stufe verwenden wir den Median der LIX-Werte, in denen ein Lemma auftritt, als Komplexitätsscore für dieses Lemma. Durch eine Normalisierung, die hochfrequente Lemmata nach links verschiebt, erhalten wir eine Komplexitätsschätzung auf Wortebene, die sowohl Frequenz als auch tatsächliche Verwendung berücksichtigt.
Wir evaluieren unseren Ansatz qualitativ anhand von Beispielen aus Gesundheitsfragebögen und zeigen, dass er Vorschläge für Vereinfachungen liefern kann. Darüber hinaus untersuchen wir die Beziehung zwischen unserem Komplexitätsmaß und Wortlänge, Silbenzahl und Frequenz.
Unser Ansatz ist sprach-unabhängig und kann für jede Sprache angewendet werden, für die ein dokumentenweites Komplexitätsmaß verfügbar ist. Wir demonstrieren dies auch für das Englische.
翻譯成其他語言
從原文內容
arxiv.org
深入探究