Die Studie vergleicht die Leistung von sieben Imputationstechniken - Mittelwertimputation, Medianimputation, LOCF-Imputation, KNN-Imputation, Interpolationsimputation, Missforest-Imputation und MICE-Imputation - auf drei Gesundheitsdatensätzen (Brustkrebsdaten, Diabetesdaten und Herzkrankheitsdaten). Es wurden 10%, 15%, 20% und 25% fehlende Werte in die Datensätze eingeführt, und die Imputationstechniken wurden verwendet, um diese fehlenden Werte zu ersetzen.
Die Ergebnisse zeigen, dass die Missforest-Imputation am besten abschneidet, gefolgt von der MICE-Imputation. Außerdem wurde untersucht, ob es besser ist, die Merkmalsauswahl vor oder nach der Imputation durchzuführen. Die Experimente zeigen, dass es besser ist, die Imputation vor der Merkmalsauswahl durchzuführen, da dies zu besseren Klassifikationsergebnissen führt.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問