Die Studie vergleicht die Leistung von sieben Imputationstechniken - Mittelwertimputation, Medianimputation, LOCF-Imputation, KNN-Imputation, Interpolationsimputation, Missforest-Imputation und MICE-Imputation - auf drei Gesundheitsdatensätzen (Brustkrebsdaten, Diabetesdaten und Herzkrankheitsdaten). Es wurden 10%, 15%, 20% und 25% fehlende Werte in die Datensätze eingeführt, und die Imputationstechniken wurden verwendet, um diese fehlenden Werte zu ersetzen.
Die Ergebnisse zeigen, dass die Missforest-Imputation am besten abschneidet, gefolgt von der MICE-Imputation. Außerdem wurde untersucht, ob es besser ist, die Merkmalsauswahl vor oder nach der Imputation durchzuführen. Die Experimente zeigen, dass es besser ist, die Imputation vor der Merkmalsauswahl durchzuführen, da dies zu besseren Klassifikationsergebnissen führt.
To Another Language
from source content
arxiv.org
Djupare frågor