Belangrijkste concepten
데드라인 내에 쿼리 결과를 제공하면서 계산 비용을 최소화하기 위해 데이터 스트림을 간헐적으로 처리하는 스케줄링 기법을 제안한다.
Samenvatting
이 논문은 데이터 스트림 처리 시스템에서 쿼리 처리 스케줄링 문제를 다룬다. 데이터 스트림 처리 엔진은 일반적으로 튜플 단위 또는 마이크로 배치 단위로 데이터를 처리하지만, 이는 많은 오버헤드를 발생시킬 수 있다.
저자들은 쿼리 결과가 데드라인 내에 필요한 경우, 튜플을 더 큰 배치로 처리하여 계산 비용을 줄일 수 있다고 제안한다. 이를 위해 단일 쿼리와 다중 쿼리 시나리오에 대한 스케줄링 기법을 제안한다.
단일 쿼리 시나리오에서는 데드라인을 만족하면서 계산 비용을 최소화하는 배치 크기와 스케줄링 시점을 결정한다. 다중 쿼리 시나리오에서는 각 쿼리의 데드라인을 고려하여 배치 크기를 결정하고, 데드라인이 더 짧은 쿼리를 우선적으로 처리한다.
제안된 스케줄링 기법은 Apache Spark 기반의 Custom Query Scheduler 모듈로 구현되었으며, TPC-H 데이터와 쿼리를 사용한 실험에서 기존 Spark Streaming 대비 큰 성능 향상을 보였다.
Statistieken
데이터 스트림 처리 시 마이크로 배치 단위 처리에 비해 제안 기법이 계산 비용을 크게 줄일 수 있다.
제안 기법은 메모리 사용 측면에서도 이점이 있어 out-of-memory 이슈를 해결할 수 있다.
Citaten
"데드라인 내에 쿼리 결과를 제공하면서 계산 비용을 최소화하기 위해 데이터 스트림을 간헐적으로 처리하는 스케줄링 기법을 제안한다."
"제안된 스케줄링 기법은 Apache Spark 기반의 Custom Query Scheduler 모듈로 구현되었으며, TPC-H 데이터와 쿼리를 사용한 실험에서 기존 Spark Streaming 대비 큰 성능 향상을 보였다."