이 논문은 데이터 스트림 처리 시스템에서 쿼리 처리 스케줄링 문제를 다룬다. 데이터 스트림 처리 엔진은 일반적으로 튜플 단위 또는 마이크로 배치 단위로 데이터를 처리하지만, 이는 많은 오버헤드를 발생시킬 수 있다.
저자들은 쿼리 결과가 데드라인 내에 필요한 경우, 튜플을 더 큰 배치로 처리하여 계산 비용을 줄일 수 있다고 제안한다. 이를 위해 단일 쿼리와 다중 쿼리 시나리오에 대한 스케줄링 기법을 제안한다.
단일 쿼리 시나리오에서는 데드라인을 만족하면서 계산 비용을 최소화하는 배치 크기와 스케줄링 시점을 결정한다. 다중 쿼리 시나리오에서는 각 쿼리의 데드라인을 고려하여 배치 크기를 결정하고, 데드라인이 더 짧은 쿼리를 우선적으로 처리한다.
제안된 스케줄링 기법은 Apache Spark 기반의 Custom Query Scheduler 모듈로 구현되었으며, TPC-H 데이터와 쿼리를 사용한 실험에서 기존 Spark Streaming 대비 큰 성능 향상을 보였다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究