Core Concepts
지구 관측 데이터의 대규모 전송 및 저장 비용을 줄이기 위해 신경망 기반 압축 기법을 활용하여 효율적인 다중 작업 임베딩을 생성하고, 이를 활용한 다운스트림 학습 및 추론 수행
Abstract
이 연구는 지구 관측 데이터의 대규모 전송 및 저장 비용을 줄이기 위한 방법을 제안합니다. 기존의 원시 데이터 압축 방식 대신, 신경망 기반 압축 기법을 활용하여 다중 작업 임베딩을 생성하고 이를 전송하는 방식을 소개합니다.
주요 내용은 다음과 같습니다:
지구 관측 분야에서 사용되는 대규모 데이터 저장소와 이에 따른 전송 및 저장 비용의 문제를 설명합니다.
신경망 기반 압축 기법(NEC)을 제안하여, 원시 데이터 대신 압축된 임베딩을 전송하는 방식을 소개합니다.
NEC는 자기 지도 학습 기반 손실 함수와 엔트로피 기반 압축 기법을 결합하여, 다운스트림 작업 성능 저하를 최소화하면서도 높은 압축률을 달성합니다.
두 가지 지구 관측 작업(장면 분류, 의미론적 분할)에 대한 실험 결과를 제시하며, NEC가 기존 방식 대비 75-90%의 데이터 크기 감소와 함께 유사한 성능을 보임을 확인합니다.
Stats
2022년 한 해 동안 Sentinel Data Access System에서 78.6 PiB의 데이터가 다운로드되었습니다.
NEC를 통해 장면 분류 작업에서 99.7% 압축 수준에서도 성능 저하가 5% 미만으로 나타났습니다.
의미론적 분할 작업에서 NEC는 100배 이상의 압축률에서도 5% 미만의 성능 저하를 보였습니다.
Quotes
"지구 관측 데이터 저장소는 전 세계적으로 가장 큰 데이터 저장소 중 하나입니다."
"NEC는 데이터 전송, 저장 요구사항 및 관련 에너지 비용을 줄일 수 있는 지속 가능성 측면에서 유용합니다."