Core Concepts
대규모 기후 데이터 세트를 신뢰할 수 있고 효율적으로 복제하기 위해 고성능 데이터 전송 인프라와 자동화된 도구를 활용하는 것이 중요하다.
Abstract
이 연구는 미국 에너지부(DOE)의 로렌스 리버모어 국립연구소(LLNL), 아르곤 국립연구소(ANL), 오크리지 국립연구소(ORNL) 간에 7.3 페타바이트 규모의 기후 시뮬레이션 데이터를 복제하는 과정을 다룹니다.
복제 작업은 다음과 같은 단계로 진행되었습니다:
- LLNL에서 ALCF로 데이터를 먼저 전송하고, 이후 ALCF에서 OLCF로 전송하는 방식을 채택했습니다. 이를 통해 LLNL의 느린 파일 시스템 속도로 인한 지연을 최소화할 수 있었습니다.
- Globus 플랫폼을 활용하여 대규모 데이터 전송을 자동화하고 신뢰성을 높였습니다. Globus는 인증, 권한 부여, 전송 속도 최적화, 무결성 검사, 오류 복구 등의 기능을 제공합니다.
- 전송 과정에서 발생한 다양한 일시적 오류들을 Globus가 자동으로 처리하여 전체 복제 작업이 중단되지 않도록 하였습니다.
- 복제 작업을 모니터링하고 관리하기 위한 대시보드를 구축하여 진행 상황을 실시간으로 확인할 수 있었습니다.
이번 사례를 통해 대규모 데이터 복제 작업을 효율적이고 신뢰성 있게 수행하기 위해서는 고성능 네트워크, 데이터 전송 노드, 자동화 도구 등의 인프라가 필수적임을 확인할 수 있었습니다. 이러한 인프라는 향후 CMIP7과 같은 더 큰 규모의 기후 데이터 세트를 관리하는 데에도 중요할 것으로 보입니다.
Stats
이번 복제 작업에는 총 7.3 페타바이트의 데이터, 17,347,671개의 디렉토리, 28,907,532개의 파일이 포함되었습니다.
전체 복제 작업은 2022년 2월 15일부터 5월 3일까지 77일 동안 진행되었습니다.
평균 전송 속도는 LLNL→ALCF 0.648 GB/s, LLNL→OLCF 0.662 GB/s, ALCF→OLCF 1.706 GB/s, OLCF→ALCF 2.352 GB/s였습니다.
총 4,086개의 오류가 발생했으며, 이는 전송 당 평균 1.05개의 오류에 해당합니다.
Quotes
"대규모 과학 데이터를 신뢰할 수 있고 효율적으로 복제하기 위해서는 고성능 네트워크, 데이터 전송 노드, 자동화 도구 등의 인프라가 필수적이다."
"Globus는 인증, 권한 부여, 전송 속도 최적화, 무결성 검사, 오류 복구 등의 기능을 제공하여 대규모 데이터 복제 작업을 안정적으로 수행할 수 있게 해준다."