核心概念
本文提出了一種輕量級方法,自動將研究數據註解為機器可讀的元數據,並將數據和元數據打包成開放標準的數據容器,以簡化數據的探索、評估、驗證和工作流定義。
摘要
本文介紹了echemdb工具包,這是一種輕量級方法,用於自動將研究數據註解為機器可讀的元數據。主要內容包括:
-
文件命名約定和數據交換格式:
- 文件名不再用於存儲元數據,而是使用YAML、JSON或XML格式存儲結構化的元數據。
- 提供了自動生成元數據的方法,如使用Python watchdog包監控文件創建事件。
-
數據包:
- 將數據和元數據打包成開放標準的數據容器 - 數據包。
- 介紹了unitpackage API,用於簡化數據包的創建和探索。
- 展示了如何使用unitpackage API加載、過濾和可視化數據集合。
-
標準化原始數據:
- 處理不符合理想CSV格式的數據,如包含多行標題和頁腳的文件。
- 定義內部標準,確保不同軟件產生的數據使用相同的列名。
-
演示:
- 介紹了為電化學數據開發的元數據模式。
- 展示了如何從文獻數據中提取數據並將其存儲為數據包。
- 展示了如何使用web框架和Jupyter筆記本顯示和組織數據集合。
總的來說,該方法不需要複雜的研究數據管理基礎設施,只需基本的Python編程技能即可。存儲的數據更易於在文件系統中定位,提高了進一步用於更複雜工作流或電子實驗室筆記本解決方案的互操作性,並提供了在高級解決方案不可用時輕鬆訪問數據的方法。
統計資料
0,1.01,275
1,1.02,275
2,1.05,275
3,0.95,275
4,0.99,275
5,1.01,275
6,0.98,275
7,0.99,275
引述
"本文提出了一種輕量級方法,自動將研究數據註解為機器可讀的元數據,並將數據和元數據打包成開放標準的數據容器,以簡化數據的探索、評估、驗證和工作流定義。"
"存儲的數據更易於在文件系統中定位,提高了進一步用於更複雜工作流或電子實驗室筆記本解決方案的互操作性,並提供了在高級解決方案不可用時輕鬆訪問數據的方法。"