Verbesserung der Generalisierungsleistung durch Entfernung des vollen Gradientenanteils in der Sharpness-Aware-Minimierung
Die Effektivität der Sharpness-Aware-Minimierung (SAM) beruht hauptsächlich auf dem Batchspezifischen stochastischen Gradientenrauschen in der Perturbationsrichtung, während der volle Gradientenanteil die Generalisierungsleistung beeinträchtigt. Durch Entfernung des vollen Gradientenanteils in der Perturbation kann die Generalisierung weiter verbessert werden.