핵심 개념
데이터 분석 작업의 성능 모델링을 위한 런타임 메트릭 공유의 개인 정보 보호 방법 소개
초록
성능 모델링은 클러스터 자원 할당 및 작업 스케줄링 효율성 향상에 중요
성능 모델은 훈련 데이터 양이 많이 필요
데이터 합성 및 차별적 개인 정보 보호를 기반으로 런타임 메트릭 공유 방법 제시
736개의 Spark 작업 실행 데이터를 사용한 평가 결과, 완전 익명화된 훈련 데이터는 성능 예측 정확도를 유지
데이터 합성을 통해 성능 모델 정확도 유지 가능
데이터 합성에 따른 성능 데이터 생성 부담 측정
통계
736개의 Spark 작업 실행 데이터를 사용한 평가 결과
완전 익명화된 훈련 데이터는 성능 예측 정확도를 유지
30개 이하의 원본 데이터 샘플 사용 시, 합성 훈련 데이터 사용은 평균적으로 성능 모델 정확도 감소율 1%만 발생
인용구
"성능 모델은 훈련 데이터 양이 많이 필요하다."
"데이터 합성 및 차별적 개인 정보 보호를 기반으로 런타임 메트릭 공유 방법 제시"