Die Studie vergleicht die Leistung von sieben Imputationstechniken - Mittelwertimputation, Medianimputation, LOCF-Imputation, KNN-Imputation, Interpolationsimputation, Missforest-Imputation und MICE-Imputation - auf drei Gesundheitsdatensätzen (Brustkrebsdaten, Diabetesdaten und Herzkrankheitsdaten). Es wurden 10%, 15%, 20% und 25% fehlende Werte in die Datensätze eingeführt, und die Imputationstechniken wurden verwendet, um diese fehlenden Werte zu ersetzen.
Die Ergebnisse zeigen, dass die Missforest-Imputation am besten abschneidet, gefolgt von der MICE-Imputation. Außerdem wurde untersucht, ob es besser ist, die Merkmalsauswahl vor oder nach der Imputation durchzuführen. Die Experimente zeigen, dass es besser ist, die Imputation vor der Merkmalsauswahl durchzuführen, da dies zu besseren Klassifikationsergebnissen führt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Luke Oluwase... a las arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14687.pdfConsultas más profundas