Schätzung der lexikalischen Komplexität aus dokumentenweiten Verteilungen
Wir entwickeln einen zweistufigen Ansatz zur Quantifizierung der lexikalischen Komplexität, der keine vorannotierten Korpora erfordert. Wir zeigen, dass ein dokumentenweites Komplexitätsmaß (LIX) Texte aus vier verschiedenen Korpora in Komplexitätsklassen einteilen kann, und verwenden dann den Median der LIX-Werte, in denen ein Lemma auftritt, als Komplexitätsscore für dieses Lemma.