Conceptos Básicos
DISL 데이터셋은 이더리움 메인넷에 배포된 514,506개의 고유한 솔리디티 파일을 제공하여 실제 세계의 스마트 계약에 대한 대규모 및 다양한 데이터셋을 제공한다.
Resumen
DISL 데이터셋은 이더리움 메인넷에 배포된 스마트 계약의 대규모 데이터셋이다. 이 데이터셋은 다음과 같은 특징을 가지고 있다:
다양한 애플리케이션(DeFi, 아트 등)을 다루는 스마트 계약을 포함한다.
2022년 이후의 최신 솔리디티 버전으로 작성된 스마트 계약을 포함한다.
AI 작업에 적합하도록 중복을 최소화했다.
널리 사용되는 데이터셋 플랫폼에서 지원되는 형식으로 제공된다.
데이터셋 수집 과정은 다음과 같다:
Andstor 데이터셋을 초기 데이터로 사용했다.
2022년 4월 1일 이후 이더리움 블록체인에 배포된 계약을 Google BigQuery를 통해 수집했다.
Etherscan API를 사용하여 수집한 계약의 소스 코드를 가져왔다.
중복 제거 과정을 거쳐 514,506개의 고유한 솔리디티 파일을 얻었다.
DISL 데이터셋은 AI 기반 도구 개발과 스마트 계약 소프트웨어 공학 도구 벤치마킹 두 가지 주요 분야에서 큰 장점을 제공한다. 또한 실제 시나리오에 대한 실증적 연구에도 유용하게 활용될 수 있다.
Estadísticas
이더리움 메인넷에 배포된 스마트 계약의 수는 3,298,271개이다.
중복을 제거한 후 데이터셋에는 514,506개의 고유한 솔리디티 파일이 포함되어 있다.