Conceitos essenciais
In dieser Arbeit werden Datenstromalgorithmen präsentiert, die optimale Aufteilungen beim Entscheidungsbaumlernen berechnen. Für Regressions- und Klassifikationsprobleme werden effiziente Streaming-Algorithmen entwickelt, die sublineare Speicherplatzanforderungen und eine geringe Anzahl von Durchläufen durch den Datenstrom haben.
Resumo
Die Arbeit befasst sich mit dem Problem, optimale Aufteilungspunkte für Entscheidungsbäume in Streaming- und massiv parallelen Modellen zu finden.
Für das Regressionsproblem werden folgende Algorithmen präsentiert:
- Ein deterministischer 1-Durchlauf-Algorithmus, der den optimalen Aufteilungspunkt in ̃O(D) Speicherplatz und O(1) Updatezeit findet, wobei D die Anzahl der unterschiedlichen Werte der Beobachtungen ist.
- Ein 2-Durchlauf-Algorithmus, der mit hoher Wahrscheinlichkeit einen Aufteilungspunkt j findet, so dass der mittlere quadratische Fehler L(j) ≤ OPT + ε ist. Dieser Algorithmus verwendet ̃O(1/ε) Speicherplatz und ̃O(1/ε) Nachberechnungszeit.
- Ein O(log N)-Durchlauf-Algorithmus, der mit hoher Wahrscheinlichkeit einen Aufteilungspunkt j findet, so dass L(j) ≤ (1 + ε) OPT ist. Dieser Algorithmus verwendet ̃O(1/ε^2) Speicherplatz und ̃O(1/ε^2) Update- und Nachberechnungszeit.
Für das Klassifikationsproblem mit numerischen Beobachtungen werden folgende Algorithmen präsentiert:
- Ein 1-Durchlauf-Algorithmus, der mit hoher Wahrscheinlichkeit einen Aufteilungspunkt j findet, so dass die Fehlklassifikationsrate L(j) ≤ OPT + ε ist. Dieser Algorithmus verwendet ̃O(1/ε) Speicherplatz und ̃O(1/ε) Nachberechnungszeit.
- Ein O(log N)-Durchlauf-Algorithmus, der mit hoher Wahrscheinlichkeit einen Aufteilungspunkt j findet, so dass L(j) ≤ (1 + ε) OPT ist. Dieser Algorithmus verwendet ̃O(1/ε^2) Speicherplatz und O(1/ε^2) Update- und Nachberechnungszeit.
Für das Klassifikationsproblem mit kategorialen Beobachtungen wird Folgendes gezeigt:
- Es gibt einen 1-Durchlauf-Algorithmus, der eine Aufteilung A ⊔ B von [N] findet, so dass die Fehlklassifikationsrate L(A,B) ≤ OPT + ε ist. Dieser Algorithmus verwendet ̃O(N/ε) Speicherplatz und O(2^N) Nachberechnungszeit.
- Jeder konstante-Durchlauf-Algorithmus, der entscheidet, ob OPT = 0 ist, benötigt Ω(N) Speicherplatz.
Estatísticas
Die Anzahl der unterschiedlichen Werte der Beobachtungen ist D.
Die Beobachtungen xi liegen im Bereich [N] und die Zielvariablen yi liegen im Bereich [0, M] für Regression bzw. in {-1, +1} für Klassifikation.
In der massiv parallelen Berechnung gibt es m Beobachtungen, die auf √m Maschinen mit jeweils ̃O(√m) Speicherplatz verteilt sind.
Citações
Keine relevanten Zitate identifiziert.