核心概念
本文提出了一種基於弱稀疏識別非線性動力學 (weak-SINDy) 的新型流數據壓縮算法,特別適用於壓縮由常微分方程或偏微分方程描述的科學數據。
摘要
論文概述
本研究論文提出了一種名為「流式弱 SINDy」的新型數據壓縮算法,專為處理模擬或實驗產生的流式科學數據而設計。該算法利用數據的底層動態特性,通過構建代理模型來實現壓縮。
研究背景
隨著計算能力的提升,科學模擬和實驗產生的數據量呈指數級增長,數據壓縮對於存儲和分析這些海量數據集至關重要。與傳統的「離線」壓縮算法不同,流式壓縮算法在數據生成過程中「在線」壓縮數據,無需存儲完整數據集,因此非常適合處理科學數據。
算法描述
流式弱 SINDy 算法利用流式積分方法,以內存高效的方式在線構建特徵矩陣和目標向量。然後,在離線階段,通過回歸過程使用這些矩陣和向量構建模型,旨在恢復控制數據演化的方程式。對於高維流數據,該算法採用流式主正交分解 (POD) 方法來降低數據維度,然後使用流式弱 SINDy 算法壓縮 POD 展開的時間數據。
主要貢獻
- 開發了一種基於弱 SINDy 的新型流數據壓縮算法。
- 提出了一種將流式弱 SINDy 算法與流式 POD 方法相結合的方案,用於壓縮高維流數據。
- 通過數值實驗驗證了該算法的有效性,證明其能夠以較低的內存成本準確地重建完整數據流。
研究意義
該研究為壓縮大型科學數據集提供了一種高效且實用的方法,有助於解決數據存儲和分析方面的挑戰。
引述
"However, scientific data are often governed by underlying physical systems, which are usually described using ordinary differential equations (ODEs) or partial differential equations (PDEs)."
"This drives the development of online dictionary learning techniques [1,13]."