Masked Structural Growth (MSG) beschleunigt das Pre-Training von Sprachmodellen um das Zweifache, während die Leistung beibehalten wird.