Die Studie präsentiert einen neuen Ansatz zur Modellierung diskreter Datenverteilungen, das "Smoothed Discrete Sampling" (SDS), das auf dem Konzept des neuronalen empirischen Bayes aufbaut. Der Kernalgorithmus, das diskrete Walk-Jump-Sampling (dWJS), verwendet entkoppelte, separat trainierte Score- und Energiemodelle, um verrauschte Datenverteilungen zu lernen und diskrete Daten zu sampeln.
dWJS vereinfacht das Training von Score-basierten Modellen für diskrete Daten, indem es nur einen einzigen Rauschpegel erfordert und keinen Rauschplan, was die Sprödigkeit, Trainingsinstabilitäten und langsame Abtastung von Diffusionsmodellen behebt. Der Ansatz löst auch Schwierigkeiten beim Training von Energiemodellen, was den Bedarf für viele übliche Tricks beim Training von Energiemodellen (Replay-Puffer, ℓ2-Norm-Strafe, Verwerfungsabtastung usw.) überflüssig macht, während er eine gute Samplingqualität und schnelles Sampling beibehält.
Die Methode wird im Kontext der ab initio-Proteinentdeckung und -gestaltung evaluiert - der Generierung neuartiger, biophysikalisch gültiger Proteinsequenzen aus Modellen, die auf Repertoires funktionaler Moleküle trainiert wurden. Die Ergebnisse zeigen, dass dWJS leistungsfähiger ist als autoregressive und maskierte Proteinsprachmodelle, große Sprachmodelle, diskrete Sequenz- und Struktur-Sequenz-Diffusion sowie Score-basierte Basislinien. Darüber hinaus validieren wir unsere Methode durch In-vitro-Experimente, bei denen 97-100% der generierten Proben erfolgreich exprimiert und gereinigt werden und 70% der funktionalen Designs bei ersten Versuchen eine gleiche oder verbesserte Bindungsaffinität im Vergleich zu bekannten funktionalen Antikörpern zeigen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문