Der Artikel befasst sich mit der Berechnung der intrinsischen Dimension (ID) binärer Datensätze. Die intrinsische Dimension soll die Anzahl der Informationselemente widerspiegeln, die benötigt werden, um die Objekte im Datensatz zu beschreiben.
Zunächst wird die Korrelationsdimension nach Tatti et al. als Maß für die Dimensionalität binärer Daten vorgestellt. Anschließend wird die Idee der intrinsischen Dimension geometrischer Datensätze von Hanika et al. aufgegriffen, die formale Konzepte als Messinstrumente verwendet.
Um die Berechnung der ID für große und hochdimensionale binäre Datensätze zu ermöglichen, wird eine Approximation entwickelt, die nur formale Konzepte mit einem Mindestmaß an Unterstützung berücksichtigt. Daraus lassen sich Ober- und Untergrenzen für die ID ableiten.
Die Approximation wird auf verschiedenen binären Datensätzen evaluiert und mit den Ergebnissen der Korrelationsdimension verglichen. Es zeigt sich, dass die ID andere Aspekte der Daten erfasst als die Korrelationsdimension. Zudem erweist sich die Berechnung der Konzepte als Flaschenhals, was Raum für Verbesserungen lässt.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Tom Hanika,T... klokken arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06326.pdfDypere Spørsmål