Core Concepts
Wir präsentieren einen effizienteren Algorithmus zum gleichzeitigen Berechnen der Präfixwahrscheinlichkeiten aller Präfixe eines Strings unter einer probabilistischen kontextfreien Grammatik.
Abstract
Der Artikel beschreibt einen Algorithmus zur effizienten Berechnung von Präfixwahrscheinlichkeiten unter einer probabilistischen kontextfreien Grammatik (PCFG).
Zunächst werden die notwendigen Grundlagen zu PCFGs eingeführt, einschließlich der Definition von Ableitungen, Innenwahrscheinlichkeiten und Präfixwahrscheinlichkeiten.
Dann wird der Jelinek-Lafferty-Algorithmus hergeleitet, der die Präfixwahrscheinlichkeiten in O(N³|N|³ + |N|⁴) Zeit berechnet, wobei N die Länge des Eingabestrings und |N| die Anzahl der Nichtterminale der Grammatik ist.
Anschließend präsentieren wir einen verbesserten Algorithmus, der die Präfixwahrscheinlichkeiten in O(N²|N|³ + N³|N|²) Zeit berechnet. Der Geschwindigkeitsgewinn wird durch eine andere Faktorisierung der Präfixwahrscheinlichkeitsgleichung und zusätzliche Memoisierung erreicht.
Abschließend zeigen wir, wie der Algorithmus auf semiring-gewichtete kontextfreie Grammatiken verallgemeinert werden kann, ohne die Laufzeitkomplexität zu verändern.
Stats
Die Laufzeit des CKY-Algorithmus beträgt O(N³|N|³).
Die Laufzeit des Jelinek-Lafferty-Algorithmus beträgt O(N³|N|³ + |N|⁴).
Die Laufzeit des verbesserten Algorithmus beträgt O(N²|N|³ + N³|N|²).
Quotes
"Unser Papier liefert eine effizientere Version von Jelinek und Lafferty (1991) für die Berechnung von Präfixwahrscheinlichkeiten unter einer PCFG in Chomsky-Normalform."
"Wir geben einen O(N²|N|³ + N³|N|²) Zeitalgorithmus an, der der schnellste bekannte in der Literatur für dichte Grammatiken in Chomsky-Normalform ist."