核心概念
データ準備タスクに最適なデータフレームライブラリは、データセットのサイズ、マシンの構成、適用される処理によって異なる。
要約
データ準備のためのデータフレームライブラリの評価:単一マシンでの比較分析
この論文は、単一マシン上でのデータ準備における主要なPythonデータフレームライブラリのパフォーマンスを評価する比較分析を提供しています。データ準備は、データサイエンスワークフローの重要な部分であり、データセットを後続の分析やモデリングに適した状態にするために不可欠です。
データ準備は、データサイエンティストがデータ分析タスクに費やす時間の多くを占める、反復的で時間のかかるプロセスです。効果的なデータ準備のために、Pandas、PySpark、Modin、Polars、CuDF、Vaex、DataTableなど、さまざまなデータフレームライブラリが登場しています。これらのライブラリはそれぞれ、パフォーマンス特性、メモリ管理、計算機能が異なります。