Core Concepts
Der DISL-Datensatz ist die größte Sammlung von Solidity-Smart-Contracts, die auf der Ethereum-Blockchain bereitgestellt wurden. Er dient als wertvolle Ressource für die Entwicklung von Maschinenlernmodellen und das Benchmarking von Softwaretools für Smart Contracts.
Abstract
Der DISL-Datensatz wurde entwickelt, um den Bedarf an einem großen und vielfältigen Datensatz von Solidity-Smart-Contracts in der Praxis zu decken. Er enthält 3.298.271 Einträge von bereitgestellten Smart Contracts, von denen 514.506 eindeutige Solidity-Dateien sind.
Der Datensatz wurde in zwei Sammlungen unterteilt: eine "Raw"-Sammlung mit allen Verträgen und eine "Decomposed"-Sammlung, in der die Verträge in einzelne Solidity-Dateien aufgeteilt und duplizierte Dateien entfernt wurden.
Die Metadaten der Verträge umfassen Informationen wie den Vertragsnamen, die Adresse, die verwendete Sprache, den Quellcode, die Compiler-Version, die Lizenz, die ABI, Optimierungseinstellungen und mehr.
Der DISL-Datensatz bietet zwei Hauptvorteile: Zum einen dient er als wertvolle Ressource für die Entwicklung von KI-basierten Tools für Smart Contracts, insbesondere für das Finetuning von Sprachmodellen. Zum anderen stellt er einen neuen Benchmark-Datensatz für die Evaluierung von Softwaretools für Smart Contracts dar, da er echte, in der Praxis eingesetzte Verträge enthält.
Stats
Der DISL-Datensatz enthält insgesamt 3.298.271 bereitgestellte Smart Contracts.
Nach der Deduplizierung umfasst der Datensatz 514.506 eindeutige Solidity-Dateien.
Quotes
"DISL ist die größte Sammlung von Smart-Contract-Quellcode-Dateien zum Zeitpunkt der Veröffentlichung."
"DISL dient als wertvolle Ressource für die Entwicklung von KI-basierten Tools für Smart Contracts und als neuer Benchmark-Datensatz für die Evaluierung von Softwaretools."