核心概念
TablePuppet ist ein generisches Framework für das relationale föderierte Lernen (RFL), das den Lernprozess in zwei Schritte unterteilt: (1) Lernen über Join (LoJ) und (2) Lernen über Union (LoU). LoJ schiebt das Lernen auf die vertikalen Tabellen, die zusammengeführt werden, und LoU schiebt das Lernen weiter auf die horizontalen Partitionen jeder vertikalen Tabelle.
要約
Der Artikel stellt TablePuppet, ein generisches Framework für das relationale föderierte Lernen (RFL), vor. RFL ist ein komplexeres Szenario als horizontales föderiertes Lernen (HFL) und vertikales föderiertes Lernen (VFL), da die Trainingsdaten in relationalen Tabellen mit sowohl vertikaler als auch horizontaler Partitionierung gespeichert sind.
TablePuppet zerlegt den Lernprozess in zwei Schritte:
- Lernen über Join (LoJ): Hier wird das Lernen auf der gesamten Join-Tabelle auf jede (virtuelle) vertikale Tabelle heruntergebrochen. TablePuppet verwendet einen Tabellenzuordnungsmechanismus, um tatsächliche Joins zu vermeiden, und optimiert die Berechnung und Kommunikation, um die durch Joins eingeführten doppelten Tupel zu reduzieren.
- Lernen über Union (LoU): Hier wird das Lernen auf jeder vertikalen Tabelle aus dem LoJ-Schritt weiter auf jede horizontale Tabelle heruntergebrochen. TablePuppet verwendet eine Server-Client-Architektur, bei der der Server die globale Modelloptimierung koordiniert, während die Clients die lokalen Modelloptimierungen auf ihren horizontalen Tabellen durchführen.
TablePuppet wurde so konzipiert, dass es mit verschiedenen Lernalgorithmen wie stochastischem Gradientenabstieg (SGD) und der Methode der abwechselnden Richtungen (ADMM) integriert werden kann. Die Experimente zeigen, dass TablePuppet eine Modellgenauigkeit erreichen kann, die mit der eines zentralisierten Basisansatzes vergleichbar ist, und dass ADMM weniger Kommunikationszeit als SGD benötigt, um eine ähnliche Modellgenauigkeit zu erreichen.
統計
Die gesamte Join-Tabelle enthält N Tupel und d Merkmale.
Jede vertikale Tabelle Ti enthält ni Tupel und di Merkmale.
Jede horizontale Tabelle Tq
i enthält nq
i Tupel.
引用
"Bestehende FL-Ansätze, wie horizontales FL (HFL) und vertikales FL (VFL), betrachten dezentralisierte Trainingsdaten als eine einzige große Tabelle, die entweder horizontal (nach Zeilen) oder vertikal (nach Spalten) unter den Teilnehmern aufgeteilt ist. Diese Ansätze sind jedoch unzureichend für Szenarien, in denen Trainingsdaten in relationalen Tabellen über Datenbanken verteilt sind und SQL-Operationen wie Joins und Unions benötigt werden, um die Trainingsdaten zusammenzustellen."
"Kann man das föderierte Lernen direkt auf diesen verteilten relationalen Tabellen ohne Datenaustausch durchführen?"