Core Concepts
時系列データ分析においては、モデル設計の改善だけでなく、データの質の向上が重要である。本論文では、時系列データの特性に基づいて、サンプル、特徴量、期間の観点からデータ選択方法を体系的にレビューし、その特徴、利点、課題を議論する。
Abstract
本論文は、時系列データ分析におけるデータ中心アプローチを専門的に調査した最初の論文である。現在の技術動向の中で、データ管理と組織化の重要性を強調している。一般的な時系列モデルの実現は重要であるが、現時点では、特定のドメインに特化した一般モデルとそれに対応するデータ選択方法がより実用的かつ効果的であると述べている。
サンプル、特徴量、期間の3つの観点から時系列データを選択することを提案している。今後は、ラベル付け、モデルの解釈可能性と公平性、プロンプトエンジニアリング、新しいデータセットやベンチマークの提案などの時系列データ中心アプローチについても研究する必要がある。
Stats
時系列データは、D個の変数と T個の時間点から構成される。
時系列データには、時間領域の性質(分解可能性、自己相関、変数間相関)と周波数領域の性質(離散フーリエ変換、離散ウェーブレット変換)が存在する。
Quotes
"データは機械学習アプローチを用いた時系列分析を行う上で不可欠である。良質な時系列データセットは、モデルの精度、頑健性、収束性、タスクの結果と費用に有利である。"
"データ中心AIの出現は、モデルの改善から、データ品質の優先への移行を表している。"